【python + word2vec】计算语义相似度

最新推荐文章于 2024-07-26 15:05:42 发布

四海八荒第一野怪

最新推荐文章于 2024-07-26 15:05:42 发布

阅读量1.6w

点赞数 7

分类专栏： word2vec python 文章标签： python word2vec

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25264951/article/details/73917635

版权

word2vec 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

本方法是使用python语言使用word2vec 的方法来进行语义相似度的计算、

1、首先配置python27下的word2vec的环境（gensim），如下所示：

2、训练文本

# -*- coding: utf-8 -*-
from gensim.models import word2vec
import logging
import numpy as np
# 主程序
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
sentences = word2vec.Text8Corpus(u"C:/Users/Administrator/Desktop/data/abstract.txt")  # 加载语料
n_dim=200
model = word2vec.Word2Vec(sentences, size=n_dim, min_count=0,sg=1)  # 训练skip-gram模型; 默认window=5
# 保存模型，以便重用
model.save("E:/pythonWorkSpace/work/deal_chinesepaper_data/model_data/abs0.model")
# 以一种C语言可以解析的形式存储词向量
model.save_word2vec_format("E:/model_data/abs0.model.bin", binary=True)
if __name__ == "__main__":
    pass

3、根据训练的结果计算语义相似度

# -*- coding: utf-8 -*-

from gensim.models import word2vec
import logging
import numpy as np

model = word2vec.Word2Vec.load("E:/model_data/abs0.model.bin")
y1 = model.similarity(u"社会媒体", u"社交网络")
print u"社会媒体和社交网络的相似度为：", y1
print "--------\n"
y2 = model.most_similar(u"霍克斯过程", topn=20)  # 20个最相关的
print u"和社会媒体最相关的词有：\n"
for item in y2:
    print item[0], item[1]
print "--------\n"

结果如下所示

四海八荒第一野怪

关注

7
点赞
踩
40

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

四海八荒第一野怪 CSDN认证博客专家 CSDN认证企业博客

码龄10年

20: 原创

42万+: 周排名

126万+: 总排名

6万+: 访问

: 等级

769: 积分

8: 粉丝

33: 获赞

12: 评论

118: 收藏

私信

关注

热门文章

分类专栏

python 3篇
javaweb 4篇
java 3篇
linux 2篇
Sparql 1篇
javascript 6篇
word2vec 3篇
java，log4j 1篇
CSS 1篇
微信小程序 1篇

最新评论

blur与click事件的优先级问题
CSDN-Ada助手: 非常感谢你的分享，这篇关于blur与click事件的优先级问题的博客很有帮助。我觉得下一篇博客可以深入探讨移动端开发中的手势事件，比如常用的tap、swipe、pinch等等，探讨它们的优先级和使用方法，相信会对其他移动端开发者有很大帮助。期待你的下一篇博客，相信会有更多读者关注和收获。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
【python + word2vec】计算语义相似度
青栀初夏: 你好，请问为什么我运行出来和**最相关词的相似度很低，这与训练数据的多少是不是有关
pip下载 python插件gensim太慢
spespusliar: 感谢大佬
mix-blend-mode: cover 前端gif背景为黑色的问题
早饭很重要: ？？？
mix-blend-mode: cover 前端gif背景为黑色的问题
BOYBIRD: 加什么属性？

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。