gensim + tfidf计算句子之间相似度

最新推荐文章于 2021-05-04 23:06:58 发布

今天也要笑笑鸭

最新推荐文章于 2021-05-04 23:06:58 发布

阅读量4.4k

点赞数 1

分类专栏： python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/silent_crown/article/details/88965172

版权

def get_tfidf(words_lists):
    texts = words_lists
    dictionary = corpora.Dictionary(texts)
    feature_cnt = len(dictionary.token2id)
    
    corpus = [dictionary.doc2bow(text) for text in texts]
    
    tfidf = models.TfidfModel(corpus)

    return tfidf, dictionary, corpus, feature_cnt

texts：二维数组，每一行代表一个句子，内容是分词结果。

dictionary：相当于建了个字典，键：索引，值：词。

corpus：把句子转化成每个词出现多少次，[[(索引1，次数), (索引2，次数), ...],[(索引0，次数), (索引2，次数), ...]。

tfidf：以当前语料建模。

def get_semantic_similarity_for_line(words_list1, tfidf, dictionary, corpus, feature_cnt):
    
    kw_vector = dictionary.doc2bow(words_list1)#(jieba.lcut(keyword))
    index = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features=feature_cnt)

    sim = index[tfid

最低0.47元/天解锁文章

今天也要笑笑鸭

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
gensim + tfidf计算句子之间相似度

def get_tfidf(words_lists): texts = words_lists dictionary = corpora.Dictionary(texts) feature_cnt = len(dictionary.token2id) corpus = [dictionary.doc2bow(text) for text in texts...
复制链接

扫一扫

专栏目录

今天也要笑笑鸭 CSDN认证博客专家 CSDN认证企业博客

码龄7年

31: 原创

20万+: 周排名

50万+: 总排名

6万+: 访问

: 等级

959: 积分

5: 粉丝

20: 获赞

14: 评论

73: 收藏

私信

关注

热门文章

分类专栏

最新评论

文本分类任务中tf-idf的理解
今天也要笑笑鸭: 你动脑子仔细看看呢这都看不懂别玩机器学习了吧
文本分类任务中tf-idf的理解
qq_36415526: 确定公式和举得例子是保持一致的？你这有没有认真核实一下自己写的文章呢？
svm的loss和梯度推导及代码
爱编程的小段: 我在这纠结半天我也觉得是对W求导，误导人啊
svm的loss和梯度推导及代码
一位以泪洗面的同学: [code=python] if margin > 0: loss += margin dW[:,y[i]] += -X[i].T dW[:,j] += X[i].T [/code] 楼主不是 j!=y_i 得x_i吗？为什么是 dW[:,y[i]] += -X[i].T 是加的负的这个呢？我是小白，求解答QAQ
gensim + tfidf计算句子之间相似度
零一睡不醒: index：每个item代表一个句子和其他句子的相似度。你这是从哪里看到的结论，求个链接。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。