spark-mllib源码走读
文章平均质量分 78
leifenglian
原百度博客http://hi.baidu.com/leifenglian/,专注计算广告学,数据挖掘,机器学习,NLP等相关技术
展开
-
spark-mllib-TFIDF实现
TF就是词在一篇文章中的词频,IDF就是逆词频,IFIDF就是两者乘机,常用来表示词在文章中主要性,公式表示为: 官网上给出使用IF-IDF的例子代码: object TfIdfTest { def main(args:Array[String]){ val conf = new SparkConf().setAppName("TfIdfTest")原创 2014-11-04 15:25:41 · 18418 阅读 · 9 评论 -
spark-mllib-kmeans向量表示和距离计算
mllib在实现kmeans的过程中,对于距离的计算,使用了一些技巧。 首先要注意的是,mllib的jar中包org.apache.spark.mllib.linalg下定义了DenseVector,SparseVector,Vector等类或对象或特质。但实际上在真正计算过程中,mllib都是使用的breeze.linalg中的DenseVector,SparseVector,Vect原创 2014-11-04 15:24:29 · 15243 阅读 · 0 评论