word2vec 余弦相似度计算

实验:利用训练语料学习的词向量计算输入的两个词的余弦相似度
步骤:
1.下载训练语料:https://dumps.wikimedia.org/backup-index.html 汉语数据
2.训练语料xml转换为txt格式(训练语料不用解压)
对应的代码文件:xml2txt.py
项目文件下运行: python3 homework.py zhwiki-20191120-pages-articles-multistream.xml.bz2 wiki.zh.txt
转换后的文件:wiki.zh.txt
3.训练语料由繁体转换为简体中文
项目文件下运行:python3.7 -m opencc -c t2s -i 项目路径/wiki.zh.txt -o 项目路径/wiki.zh.simple.txt
转换后的文件:wiki.zh.simple.txt
4.切分简体中文语料(jieba)
对应的代码:cut.py
项目文件下运行:Python3.7 cut.py
切分后的文件:wiki.zh.simple.seg.txt
5.词向量学习
对应代码:train_.py
项目文件下运行:python3.7 train_.py wiki.zh.simple.seg.txt wiki.zh.text.model
wiki.zh.text.vector
学习到的向量表示模型:wiki.zh.text.model
6.计算测试文件的余弦相似度
对应代码:similarity.py
测试文件:pku_sim_test.txt
测试结果:2019180151.txt

完整代码已上传github
https://github.com/yuyitingting/words_vector_similarity

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值