用gensim对中文维基百科语料上的word2Vec相似度计算实验

本文介绍了使用gensim库在中文维基百科数据上训练Word2Vec模型的过程,包括数据下载、gensim包的安装、WikiCorpus的使用以及去除标点符号。通过jieba进行分词后,训练得到的模型可用于词向量表示和相似度计算。
摘要由CSDN通过智能技术生成

Word2vec Google 2013年年中开源的一款将表征为实向量的高效工具,其利用深度学的思想,可以通过训练,把文本内容的 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多 NLP相关的工作,比如聚、找同义词性分析等等。如果个思路, 当做特征,那么Word2vec就可以把特征映射到 K 维向量空间,可以为文本数据寻求更加深层次的特征表 

Word2Vec对应

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值