Word2vec 大杂烩

最新推荐文章于 2024-08-28 09:25:19 发布

像小马过河一样

最新推荐文章于 2024-08-28 09:25:19 发布

阅读量1.3k

点赞数

分类专栏：我是搬运工 word2vec 文章标签：数据中文分词

我是搬运工同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

word2vec

1 篇文章 0 订阅

订阅专栏

1. 下载word2vec，下载地址为：http://word2vec.googlecode.com/svn/trunk/
将下载的所有文件放入word2vec文件夹下。
补充：
word2vec的原版代码是google code上的，也有改写的其他两个版本：
(1) c++11版本：（jdeng/word2vec）下载地址: https://github.com/jdeng/word2vec
该代码可以在windows下编译运行，但需要编译器支持c++11；已使用VS2013编译通过并运行：运行vs2013命令提示符，cd进入代码目录，输入cl main.cc，然后编译即可；训练命令直接是main，测试命令是“main test”。运行和测试同样需要text8、questions-words.txt文件。该版本输出的model文件为文本格式。
(2) java版本：下载地址：https://github.com/NLPchina/Word2VEC_java
经测试，OK。也可以使用该java代码加载上述c++11版本的model，但需要自行添加load的代码。
2. 下载训练数据
下面提供一些网上能下载到的中文的好语料，供研究人员学习使用。
(1).中科院自动化所的中英文新闻语料库 http://www.datatang.com/data/13484
中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte版本。
(2).搜狗的中文新闻语料库 http://www.sogou.com/labs/dl/c.html
包括搜狐的大量新闻语料与对应的分类信息。有不同大小的版本可以下载。
(3).李荣陆老师的中文语料库 http://www.datatang.com/data/11968
压缩后有240M大小
(4).谭松波老师的中文文本分类语料 http://www.datatang.com/data/11970
不仅包含大的分类，例如经济、运动等等，每个大类下面还包含具体的小类，例如运动包含篮球、足球等等。能够作为层次分类的语料库，非常实用。这个网址免积分(谭松波老师的主页)：http://www.searchforum.org.cn/tansongbo/corpus1.php
(5).网易分类文本数据 http://www.datatang.com/data/11965
包含运动、汽车等六大类的4000条文本数据。
(6).中文文本分类语料 http://www.datatang.com/data/11963
包含Arts、Literature等类别的语料文本。
(7).更全的搜狗文本分类语料 http://www.sogou.com/labs/dl/c.html
搜狗实验室发布的文本分类语料，有不同大小的数据版本供免费下载
(8).2002年中文网页分类训练集 http://www.datatang.com/data/15021
2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生，人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。它包括11678个训练网页实例和3630个测试网页实例，分布在11个大类别中。
3. 将预料库进行分词并去掉停用词，可以使用的分词工具有：

StandardAnalyzer（中英文）、ChineseAnalyzer（中文）、CJKAnalyzer（中英文）、IKAnalyzer（中英文，兼容韩文，日文）、paoding（中文）、MMAnalyzer（中英文）、MMSeg4j（中英文）、imdict（中英文）、NLTK（中英文）、Jieba（中英文），这几种分词工具的区别，可以参加：http://blog.csdn.net/wauwa/article/details/7865526。本文使用Jieba分词工具。

4、