文本预处理
Last_xuan1
这个作者很懒,什么都没留下…
展开
-
使用Word2Vec完成基于文本相似度的推荐
使用 Word2Vec 完成基于文本相似度的推荐之前的基于文本相似度的推荐使用的是one-hot的词向量,虽然可以使用稀疏向量来存储里面的非0值,但是以这种形式的词向量存在很多问题:稀疏的向量表达效率是不高的,需要降低词向量的维度难以发现词之间的关系,以及难以捕捉句子结构和语义之间的关系使用 Word2Vec 可以得到每个词对应的词向量,它是一个稠密向量,每一维的浮点数的数值大小,表示...原创 2020-11-21 10:59:04 · 1080 阅读 · 1 评论 -
基于 TF-IDF 计算古诗之间的文本相似度
步骤对每一篇古诗进行分词计算每一个词的 tfidf 值利用每篇文章的词向量计算余弦相似度import pandas as pdimport numpy as npimport picklepath = 'F:/1.csv'df = pd.read_csv(path)df.head() _id 标题 诗...原创 2020-01-22 18:21:14 · 880 阅读 · 0 评论