中文语料上的word2vec训练

最新推荐文章于 2024-05-25 09:57:35 发布

SquiffyW_S

最新推荐文章于 2024-05-25 09:57:35 发布

阅读量4.6k

点赞数 2

分类专栏：表示学习

本文链接：https://blog.csdn.net/SquiffyW_S/article/details/53523454

版权

本文介绍如何利用word2vec处理中文语料，包括从维基百科获取语料，使用WikiExtractor.py去噪，通过OPENCC进行繁简转换，使用jieba分词并去标点，最后进行word2vec训练。

摘要由CSDN通过智能技术生成

GOOGLE开源的word2vec能够把词映射到K维空间，每个词有独自的向量表示，从而得出词语词之间的距离（相似度）。但是其自带的基本语料text8是本身就十分适合于训练的（全部是英文单词，中间用空格隔开，没有多余的信息）语料，训练的结果自然很好。本文就是说明一下如何用word2vec处理中文语料。
想到的能使用训练集自然是维基百科的中文语料，里面包含大概23万篇文章，解压后有5G多。这种XML文件还是会有很多不必要的噪声，于是我们又要用到抽取其中内容的工具，意大利人用python写的WikiExtractor.py。
下载后可以直接进行处理，命令：bzcat zhwiki-latest-pages-articles.xml.bz2 | python WikiExtractor.py -b1000M -o extracted >output.txt，（参考了licstar维基百科简体中文语料的获取）一开始出现了参数不足的问题，将语料解压后改用了：python WikiExtractor.pyzhwiki-latest-pages-articles.xml -b1000M -o extracted >output.txt，大概4小时运行结束。
但是这只是去噪的第一步，把文本内容抽取

最低0.47元/天解锁文章

SquiffyW_S

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
3
评论
中文语料上的word2vec训练

GOOGLE开源的word2vec能够把词映射到K维空间，每个词有独自的向量表示，从而得出词语词之间的距离（相似度）。但是其自带的基本语料text8是本身就十分适合于训练的（全部是英文单词，中间用空格隔开，没有多余的信息）语料，训练的结果自然很好。本文就是说明一下如何用word2vec处理中文语料。想到的能使用训练集自然是维基百科的中文语料，里面包含大概23万篇文章，解压后有5G多。这种XML
复制链接

扫一扫