![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark-mllib源码走读
文章平均质量分 78
leifenglian
原百度博客http://hi.baidu.com/leifenglian/,专注计算广告学,数据挖掘,机器学习,NLP等相关技术
展开
-
spark-mllib-TFIDF实现
TF就是词在一篇文章中的词频,IDF就是逆词频,IFIDF就是两者乘机,常用来表示词在文章中主要性,公式表示为:官网上给出使用IF-IDF的例子代码:object TfIdfTest { def main(args:Array[String]){ val conf = new SparkConf().setAppName("TfIdfTest")原创 2014-11-04 15:25:41 · 18388 阅读 · 9 评论 -
spark-mllib-kmeans向量表示和距离计算
mllib在实现kmeans的过程中,对于距离的计算,使用了一些技巧。首先要注意的是,mllib的jar中包org.apache.spark.mllib.linalg下定义了DenseVector,SparseVector,Vector等类或对象或特质。但实际上在真正计算过程中,mllib都是使用的breeze.linalg中的DenseVector,SparseVector,Vect原创 2014-11-04 15:24:29 · 15218 阅读 · 0 评论