2019年08月_九指码农

11月 09月 08月 07月

原创 spark mllib IDF源码解析

通常在文本向量化的过程中，通常用的比较多的就是tf-idf、word2vec、CountVectorizer的这几个方法，前面的博客有分析过HashingTF和CountVectorizer方法，今天来分析IDF，通常IDF和HashingTF一期联合使用。1、IDF计算公式：计算公式：idf = log((m + 1) / (d(t) + 1))m : 代表语料库文档数量 t ：包含该词...

2019-08-23 10:19:25 343

原创 spark mllib CountVectorizer源码解析

CountVectorizer和CountVectorizerModel旨在通过计数来将一个文档转换为向量。当不存在先验字典时，Countvectorizer可作为Estimator来提取词汇，并生成一个CountVectorizerModel。该模型产生文档关于词语的稀疏表示，其表示可以传递给其他算法如LDA。在fitting过程中，countvectorizer将根据语料库中的词频排序从高到...

2019-08-20 10:47:14 607

原创 spark mllib HashingTF解析

在处理文本数据，尤其是自然语言处理的场景中，hashingTF使用的比较多；Mllib使用hashing trick实现词频。元素的特征应用一个hash`函数映射到一个索引（即词），通过这个索引计算词频。这个方法避免计算全局的词-索引映射，因为全局的词-索引映射在大规模语料中花费较大。但是，它会出现哈希冲突，这是因为不同的元素特征可能得到相同的哈希值。为了减少碰撞冲突，我们可以增加目标特征的维...

2019-08-19 20:49:56 5357

基于C++的定时关机的实现

2015-03-30

C++实现的简单投票系统

基于C++实现的简单的投票系统基于C++实现的简单的投票系统代码简单易懂希望能够给大家提供学习的资料

2015-03-30

VC显示行号

ＶＣ＋＋６.０　编译器　　显示行号的插件

2015-03-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人