资料备份
文章平均质量分 87
kim_lo
这个作者很懒,什么都没留下…
展开
-
python数据处理工具 pandas包常用方法总结(持续更新)
python pandas包的数据处理常用方法原创 2016-01-19 15:00:15 · 5791 阅读 · 0 评论 -
利用Python gensim基于中文语料建立LSA隐性语义模型
传统词向量空间模型 对语料库中每个文档进行分词后,将生成一个词典。每个文档对应一个与词典长度一致的向量。若文档中出现某个词,则向量中相应的项目非零。下标index通过将词语输入Hashing函数获得,值一般取该词的TF-IDF。 TF: 词频,在长度为n的文档中某个词出现k次,则有TF=k/n IDF: 逆文档频率,出现某个词的文档数量d,语料库中一共有N个文档,有IDF=l原创 2016-07-07 16:46:07 · 7303 阅读 · 5 评论