- 博客(1)
- 收藏
- 关注
原创 中文语料上的word2vec训练
GOOGLE开源的word2vec能够把词映射到K维空间,每个词有独自的向量表示,从而得出词语词之间的距离(相似度)。但是其自带的基本语料text8是本身就十分适合于训练的(全部是英文单词,中间用空格隔开,没有多余的信息)语料,训练的结果自然很好。本文就是说明一下如何用word2vec处理中文语料。 想到的能使用训练集自然是维基百科的中文语料,里面包含大概23万篇文章,解压后有5G多。这种XML
2016-12-08 19:57:14 4754 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人