利用中文维基语料和Gensim训练 Word2Vec 的步骤
word2vec 包括CBOW 和 Skip-gram,它的相关原理网上很多,我就不讲了。这里就不多说了。简单来说,word2vec是自然语言中的字词转为计算机可以理解的稠密向量,是one-hot词汇表的降维表示,代表每个词的特征以及保持住了词汇间的关系。此处记录将中文词汇转为词向量的过程。
1. 下载中文语料
中文的语料可以从维基百科下载,这些语料库经常会更新,但都很全面。中文语料下载地址:...
原创
2018-06-23 15:17:01 ·
1766 阅读 ·
0 评论