- 博客(3)
- 资源 (3)
- 收藏
- 关注
原创 spark mllib IDF源码解析
通常在文本向量化的过程中,通常用的比较多的就是tf-idf、word2vec、CountVectorizer的这几个方法,前面的博客有分析过HashingTF和CountVectorizer方法,今天来分析IDF,通常IDF和HashingTF一期联合使用。1、IDF计算公式:计算公式:idf = log((m + 1) / (d(t) + 1))m : 代表语料库文档数量 t :包含该词...
2019-08-23 10:19:25 343
原创 spark mllib CountVectorizer源码解析
CountVectorizer和CountVectorizerModel旨在通过计数来将一个文档转换为向量。当不存在先验字典时,Countvectorizer可作为Estimator来提取词汇,并生成一个CountVectorizerModel。该模型产生文档关于词语的稀疏表示,其表示可以传递给其他算法如LDA。 在fitting过程中,countvectorizer将根据语料库中的词频排序从高到...
2019-08-20 10:47:14 607
原创 spark mllib HashingTF解析
在处理文本数据,尤其是自然语言处理的场景中,hashingTF使用的比较多;Mllib使用hashing trick实现词频。元素的特征应用一个hash`函数映射到一个索引(即词),通过这个索引计算词频。这个方法避免计算全局的词-索引映射,因为全局的词-索引映射在大规模语料中花费较大。但是,它会出现哈希冲突,这是因为不同的元素特征可能得到相同的哈希值。为了减少碰撞冲突,我们可以增加目标特征的维...
2019-08-19 20:49:56 5357
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人