课题
文章平均质量分 56
一个聪明的女人
这个作者很懒,什么都没留下…
展开
-
LSHForest进行文本相似性计算
LSH Forest: Locality Sensitive Hashing forest,局部敏感哈希森林, 是最近邻搜索方法的代替,排序实现二进制搜索和32位定长数组和散列,使用hash家族的随机投影方法近似余弦距离。 随机投影树,对所有的数据进行划分,将每次搜索与计算的点的数目减小到一个可接受的范围,然后建立多个随机投影树构成随机投影森林,将森林的综合结果作为最终的结果。 随机投影树的构建原创 2016-09-07 13:41:57 · 4484 阅读 · 2 评论 -
doc2vec计算文档相似度
doc2vec是基于word2vec的,word2vec对于计算两个词语的相似度效率比较好,修改了word2vec中的cbow和skip-gram模型,paragraph vector直接得到doc向量。 使用过程 1.读取文件,os.walk()遍历文件夹 2.构建语料库,分词,过滤停用词。用gensim.models.doc2vec.TaggedDocument() 为文档打tag 3.原创 2016-09-07 16:47:14 · 16371 阅读 · 3 评论 -
gensim similarity计算文档相似度
向量空间模型计算文档集合相似性。 将原始输入的词转换为ID,词的id表示法简单易用,但是无法预测未登记词,难以挖掘词关系;词汇鸿沟[1]:任意两个词之间是独立的,无法通过词的ID来判断词语之间的关系,无法通过词的id判断词语之间的关系[2]使用gensim包的models,corpora,similarities,对文档进行相似度计算,结果比较其他lda、doc2vec方法稳定。 主要步骤:1原创 2016-09-07 15:15:36 · 14698 阅读 · 0 评论