自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

雁寻

保守中前行...

  • 博客(10)
  • 收藏
  • 关注

原创 在Spark中实现map-side join和reduce-side join

以下说的都是二表Join,多表join则可以通过转化为多个二表join来实现。1. Map-side Join    如果要join的表中一个是大表,一个是小表(小到可以加载到内存中),就可以采用该算法。该算法可以将join算子执行在Map端,无需经历shuffle和reduce等阶段,因此效率非常高。    类似于Hadoop MapReduce中采用Distri

2014-06-02 10:54:39 5708

翻译 Scala语言 + Spark MLLib进行机器学习---聚类

在下面的例子中,我们首先加载和解析数据,然后使用KMeans算法将数据聚成两类。聚类的数目可以在程序中设定并传递给KMeans算法。然后计算集合内方差和( Within Set Sum of Squared Error,这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小。---译者注)import org.apache.spark.mllib.clustering.KMe

2014-05-25 17:29:08 2082

翻译 Scala语言 + Spark MLLib进行机器学习---线性回归

下面的例子展示了如何加载数据,解析为RDD(译者注:RDD为Spark的弹性数据集);然后利用线形回归+随机梯度下降算法构建一个线形模型,并进行预测,最后计算均方误差来对模型进行评估。import org.apache.spark.mllib.regression.LinearRegressionWithSGDimport org.apache.spark.mllib.regre

2014-05-25 17:18:37 3626

翻译 Scala语言 + Spark MLLib进行机器学习---支持向量机

下面的Scala代码展示了如何使用支持向量机(SVM)算法进行二类分类,包括以下基本步骤:1、加载训练集到Spark空间2、执行支持向量机(SVM)算法对该数据集进行训练,获得一个模型3、使用该模型进行预测,并计算训练误差

2014-05-25 17:07:46 3520

原创 Matlab向量化编程实现机器学习算法---3

3. 主成分分析和白化    首先,我们需要确保数据的均值(近似)为零。对于自然图像,我们通过减去每个图像块的均值(近似地)来达到这一目标。为此,我们计算每个图像块的均值,并从每个图像块中减去它的均值。Matlab实现如下:avg = mean(x, 1);      % 分别为每个图像块计算像素强度的均值。x = x - repmat(avg, size(x, 1

2014-05-24 15:30:11 1214

原创 Matlab向量化编程实现机器学习算法---2

2. 神经网络---正向传播      考虑一个三层神经网络(一个输入层、一个隐含层、以及一个输出层),并且假定x是包含一个单一训练样本的列向量。则向量化的正向传播步骤如下:z2 = w1.x + b1a2 = f(z2)z3 = w2.a2 + b2h(x) = a3 = f(z3)当我们需要处理m个训练样本时,则需要把如上步骤放入一个for循环中

2014-05-24 15:00:51 1195

原创 PCA(主成分分析)、超弦/M理论、意识

前些日子研究机器学习算法PCA(主成分分析),其本质就是对高维空间中的数据进行降维,舍弃重要性很小的数据,只保留主要的数据成分,从而大大减少需要处理的数据量,提高后续数据分析处理的速度。然后突然想到了量子物理中的超弦理论/M理论,M理论认为宇宙是11维的,只不过大部分维度都是极度蜷曲的,在我们人类的眼里就只看到4维宇宙(3维空间+1维时间)。而我们的大脑就是一部数据处理机,

2014-05-24 10:48:36 864

原创 Matlab向量化编程实现机器学习算法---1

假设x和θ为向量(n+1维实向量空间),需要计算 z=θ(T)x(θ(T)表示θ的转置),那么可以按以下方式实现:z = 0;for i=1:(n+1),    z = z + theta(i) * x(i);end;上述代码为非向量化编程,为了更加简洁和提高运行速度,可以采用以下向量化编程方式:z = theta' * x;    %theta'表示θ的转

2014-05-23 10:39:58 2536

原创 基于Spark/Scala的Logistic Regression算法

val points = spark.textFile(...).map(parsePoint).cache()var w = Vector.random(D) // current separating planefor (i   val gradient = points.map(p =>    (1 / (1 + exp(-p.y*(w dot p.x))) -

2014-05-23 10:00:02 2325

原创 在电脑上构建自我意识

很久以前曾想过如果能把自我意识复制到电脑上该有多好?这样的话就可以实现某种程度的永生。想想看,如果人死后电脑上的“他/她”还能继续与人沟通,说的话就像生前一样,这对其亲人朋友该是一件多么美妙的事情。当然这件事难度极大,也只能想想作罢。现在随着互联网/云计算/大数据的发展,计算和存储能力急剧扩张,上述想法具备了某种程度的可能性,不一定要让电脑具有你的全部意识,只要

2014-05-20 10:14:51 1305 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除