自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 资源 (1)
  • 收藏
  • 关注

原创 记一次win10+VM16双机调试的经历

win10加上vmvare16 调试系统搭建经历

2022-07-10 00:20:17 1162 1

原创 结构和联合

RE4B

2022-07-07 17:17:41 86

原创 re4b 第15-16-17章

re4b四章读书笔记

2022-07-06 10:25:57 171

原创 RE4B 第14章。循环

RE4B 14章读书笔记

2022-07-05 21:24:53 141

原创 RE4B 13章读书笔记

逆向权威指南读书笔记

2022-07-05 15:11:06 133

转载 java.lang.UnsatisfiedLinkError: org.jblas.NativeBlas.dposv(CII[DII[DII)I

Spark documentation clearly mentions that MLLib uses native libraries, which need to be present on the nodes.for debian/ubuntu use: sudo apt-get install jblas libgfortran3

2015-06-23 14:17:23 675

原创 eclipse 打包jar及提交spark执行步骤

1,export对应的源文件。默认finish即可。2,用解压工具包编辑manifest.mf文件。其中Main-Class: com.example.myapp.MyAppMain   //执行main主类Class-Path: mail.jar activation.jar                        //依赖的jar包,集群中要能找到。编辑好之后

2015-06-19 17:45:23 2161

转载 spark对笛卡尔乘积的优化

import org.apache.spark.rdd._ def combs(rdd:RDD[String]):RDD[(String,String)] = { val count = rdd.count if (rdd.count 2) { sc.makeRDD[(String,String)](Seq.empty) } else if (rdd

2015-03-05 17:02:49 4127 2

转载 海量数据面试题举例

数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。    下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。

2014-12-18 15:02:03 350

原创 ubuntu12.04 安装sbt

ubuntu14 手动安装sbt 参见官网配置说明http://www.scala-sbt.org/release/tutorial/Manual-Installation.html  1、下载sbt通用平台压缩包:sbt-0.13.5.tgz http://www.scala-sbt.org/download.html   2、建立目录

2014-11-03 09:58:41 671

原创 一维搜索技术

首先,我们要qu

2014-09-16 14:36:11 551

原创 Richard 外推法求梯度

richard

2014-09-16 11:32:39 2492

原创 数据挖掘面试题

1,请介绍一下SVM,Boosting,LR中任何一个最熟悉的算法的目标函数、优化过程、并行实现、算法收敛性、样本复杂度、适用场景、调参经验。

2014-08-27 14:29:28 615

原创 倾斜数据的处理

一般认为,倾斜的数据就是严重不对称的shu'j

2014-08-22 20:41:37 1215 2

原创 R语言学习-线性回归

先来解释几个线性回归的概念。

2014-08-20 09:23:49 1646

转载 Spark性能相关参数配置

Spark性能相关参数配置http://spark-config.readthedocs.org/en/latest/随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 在Spark的官方文档http://spark.apache.org/docs/latest/configuration.html 中提供了这些可配置参数中相当大一部分的说

2014-08-20 09:00:30 694

原创 spark RDD 详解

最近看了一个RDD各种操作的文章,you'xie

2014-08-16 13:14:07 2161

转载 转载:spark相关流程解析

对spark的相关流程有概念之后,才能进行相应的调优spark启动流程图

2014-08-14 10:15:55 431

原创 emacs中集成Python

1. 安装YASnippetYASnippet是一个模板自动生成工具,支持C,C++,C#,perl,python等语言。使用非常简单。安装YASnippet在Emacs24版本以上变得非常容易,只需M-x list-package,之后选择YASnippet并且安装即可。之后在.emacs文件中写入===========================================

2014-08-12 13:26:56 724

转载 转载:机器学习中的相似性度量

在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。  本文的目的就是对常用的相似性度量作一个总结。本文目录:1.欧氏距离2.曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5.标准化欧氏距离6

2014-08-11 14:37:24 343

转载 转载:微博推荐算法简述

本文来自于:http://www.wbrecom.com/:图就不贴了,有兴趣打开原在介绍微博推荐算法之前,我们先聊一聊推荐系统和推荐算法。有这样一些问题:推荐系统适用哪些场景?用来解决什么问题、具有怎样的价值?效果如何衡量?推荐系统诞生很早,但真正被大家所重视,缘起于以”facebook”为代表的社会化网络的兴起和以“淘宝“为代表的电商的繁荣,”选择“的时代已经来临,信息和物品的

2014-08-11 14:29:01 1319

转载 转载:一步一步教你怎样给Apache Spark贡献代码

到 Apache Spark 的github 页面内点击 fork 按钮你的github帐户中会出现 spark 这个项目本地电脑上, 使用git clone [你的 spark repository 的 github 地址]例如:git clone git@github.com:gchen/spark.git本地得到一个叫 spark 的文件夹4. 进入该文件夹,使用git

2014-08-11 14:06:05 504

原创 ESL-12-svm

之金额library(MASS)x.1 y.1 blue x.2 y.2 orange x.blue x.orange for(i in 1:100)    {        m         x.blue.temp         x.blue         m.orange        

2014-08-04 14:10:49 836

原创 数据挖掘需要考虑的问题

1,数据计算的时空复杂度。2,

2014-07-30 14:13:06 800

原创 ESL-chapter10-boosting

boosting是一个很强大的方法。现介绍如下:

2014-07-29 09:30:21 454

原创 ESL-chapter9-加法模型和决策树

加法模型就是把变量看成是不相干的

2014-07-28 10:10:41 754

原创 ESL-chapter8-bagging

bootstrap抽样能够帮助提高模型的准确率。本文zh

2014-07-27 10:01:03 430

原创 ESL-chapter8-gibbs采样

很多时候,我们希望从后验分布中采样,用以估算后验分布的

2014-07-26 13:31:42 542

原创 ESL-chapter8-EM算法2

EM算法的目标是找到带有隐变量模型的最大似然解。

2014-07-26 10:11:17 712

原创 ESL-chapter8-EM算法介绍1-混合高斯的例子

EM算法是一种迭代算法,用于含有隐变量的概率模型的

2014-07-25 17:03:16 836

原创 不平衡类问题总结

未完待续~

2014-07-24 16:31:20 2120

原创 特征选择的一般步骤

很多时候需要降低特征的数量,一方面是为了jiang'di

2014-07-24 16:20:11 5046

原创 数据丢失值的处理方法总结

很多时候数据集不完整,需要补充数据,下

2014-07-24 14:27:12 1622

原创 ESL-chapter7-交叉验证

本章有两个重要的内容,一个是

2014-07-22 10:50:51 471

原创 ESL-chapter6 核密度估计和分类

高维中的核方法不太实用,跳过到6.6节。

2014-07-20 22:49:05 1269

原创 ESL-chapter6 Kernel Smoother

第一节,一维的核光滑x y #computing the mean value of y NNkernel {   d    a    a    return(mean(a[1:k,2]))}#computing every point of yy.NNkernel for(i in x)    {        temp  

2014-07-19 17:23:51 934

原创 ESL-chapter5 Smoothing Splines

先来看公式5.9

2014-07-18 15:23:24 2217

原创 ESLchapter5-South African Heart Disease example

先来理解 the element of statistic learning 的公式 5.6

2014-07-17 14:32:06 758

原创 ESL走读chapter5-自然三次样条插值

首先,理解自由度的计算,三次样条,有

2014-07-17 11:34:47 7555 2

原创 spark矩阵向量-矩阵矩阵相乘

val paramatrix1 = sc.parallelize(List(Vector(2, 2, 4), Vector(3, 2, 1), Vector(1, 3, 2)))

2014-07-17 08:57:30 11480 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除