Spark源码详解
六月麦茬
码农中年人
展开
-
Spark MLlib源码分析—Word2Vec源码详解
以下代码是我依据SparkMLlib(版本1.6)中Word2Vec源码改写而来,基本算是照搬。 在决定读懂源码前,博主建议读者先看一下《Word2Vec_中的数学原理详解》或者看本人根据这篇文档做的一个摘要总结。 Ps* 代码注解的很详细了,阅读代码请从类CWord2Vec的fit函数开始 import java.nio.ByteBuffer import java.util.{Random原创 2016-09-21 17:47:36 · 8073 阅读 · 4 评论 -
Spark MLlib源码分析—TFIDF源码详解
以下代码是我依据SparkMLlib(版本1.6) 1、HashingTF 是使用哈希表来存储分词,并计算分词频数(TF),生成HashMap表。在Map中,K为分词对应索引号,V为分词的频数。在声明HashingTF 时,需要设置numFeatures,该属性实为设置哈希表的大小;如果设置numFeatures过小,则在存储分词时会出现重叠现象,所以不要设置太小,一般情况下设置为30w~50w之原创 2016-09-26 20:20:24 · 3195 阅读 · 0 评论 -
动手写代码——基于Spark的TextRank实现
TextRank是在Google的PageRank算法启发下,针对文本里的句子设计的权重算法,目标是自动摘要。它利用投票的原理,让每一个单词给它的邻居(术语称窗口)投赞成票,票的权重取决于自己的票数。这是一个“先有鸡还是先有蛋”的悖论,PageRank采用矩阵迭代收敛的方式解决了这个悖论。TextRank也不例外。更多关于TextRank的介绍,博主推荐码农场的文章:http://www.hankc原创 2016-10-21 16:37:50 · 3174 阅读 · 0 评论