Spark/Scala
雁寻
专注于Big Data & Machine Learning
展开
-
基于Spark/Scala的Logistic Regression算法
val points = spark.textFile(...).map(parsePoint).cache()var w = Vector.random(D) // current separating planefor (i val gradient = points.map(p => (1 / (1 + exp(-p.y*(w dot p.x))) -原创 2014-05-23 10:00:02 · 2325 阅读 · 0 评论 -
Scala语言 + Spark MLLib进行机器学习---线性回归
下面的例子展示了如何加载数据,解析为RDD(译者注:RDD为Spark的弹性数据集);然后利用线形回归+随机梯度下降算法构建一个线形模型,并进行预测,最后计算均方误差来对模型进行评估。import org.apache.spark.mllib.regression.LinearRegressionWithSGDimport org.apache.spark.mllib.regre翻译 2014-05-25 17:18:37 · 3628 阅读 · 0 评论 -
Scala语言 + Spark MLLib进行机器学习---聚类
在下面的例子中,我们首先加载和解析数据,然后使用KMeans算法将数据聚成两类。聚类的数目可以在程序中设定并传递给KMeans算法。然后计算集合内方差和( Within Set Sum of Squared Error,这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小。---译者注)import org.apache.spark.mllib.clustering.KMe翻译 2014-05-25 17:29:08 · 2083 阅读 · 0 评论 -
Scala语言 + Spark MLLib进行机器学习---支持向量机
下面的Scala代码展示了如何使用支持向量机(SVM)算法进行二类分类,包括以下基本步骤:1、加载训练集到Spark空间2、执行支持向量机(SVM)算法对该数据集进行训练,获得一个模型3、使用该模型进行预测,并计算训练误差翻译 2014-05-25 17:07:46 · 3521 阅读 · 0 评论 -
在Spark中实现map-side join和reduce-side join
以下说的都是二表Join,多表join则可以通过转化为多个二表join来实现。1. Map-side Join 如果要join的表中一个是大表,一个是小表(小到可以加载到内存中),就可以采用该算法。该算法可以将join算子执行在Map端,无需经历shuffle和reduce等阶段,因此效率非常高。 类似于Hadoop MapReduce中采用Distri原创 2014-06-02 10:54:39 · 5710 阅读 · 0 评论