1. 下载word2vec,下载地址为:http://word2vec.googlecode.com/svn/trunk/
将下载的所有文件放入word2vec文件夹下。
补充:
word2vec的原版代码是google code上的,也有改写的其他两个版本:
(1) c++11版本:(jdeng/word2vec) 下载地址: https://github.com/jdeng/word2vec
该代码可以在windows下编译运行,但需要编译器支持c++11; 已使用VS2013编译通过并运行:运行vs2013命令提示符,cd进入代码目录,输入cl main.cc,然后编译即可;训练命令直接是main,测试命令是“main test”。 运行和测试同样需要text8、questions-words.txt文件。 该版本输出的model文件为文本格式。
(2) java版本:下载地址:https://github.com/NLPchina/Word2VEC_java
经测试,OK。 也可以使用该java代码加载上述c++11版本的model,但需要自行添加load的代码。
2. 下载训练数据
下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。
(1).中科院自动化所的中英文新闻语料库 http://www.datatang.com/data/13484
中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte版本。
(2).搜狗的中文新闻语料库 http://www.sogou.com/labs/dl/c.html
包括搜狐的大量新闻语料与对应的分类信息。有不同大小的版本可以下载。
(3).李荣陆老师的中文语料库 http://www.datatang.com/data/11968
压缩后有240M大小
(4).谭松波老师的中文文本分类语料 http://www.datatang.com/data/11970
不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。能够作为层次分类的语料库,非常实用。这个网址免积分(谭松波老师的主页):http://www.searchforum.org.cn/tansongbo/corpus1.php
(5).网易分类文本数据 http://www.datatang.com/data/11965
包含运动、汽车等六大类的4000条文本数据。
(6).中文文本分类语料 http://www.datatang.com/data/11963
包含Arts、Literature等类别的语料文本。
(7).更全的搜狗文本分类语料 http://www.sogou.com/labs/dl/c.html
搜狗实验室发布的文本分类语料,有不同大小的数据版本供免费下载
(8).2002年中文网页分类训练集 http://www.datatang.com/data/15021
2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生,人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。它包括11678个训练网页实例和3630个测试网页实例,分布在11个大类别中。
3. 将预料库进行分词并去掉停用词,可以使用的分词工具有:
1)使用word2vec分析红楼梦中的人物 http://blog.csdn.net/zhaoxinfan/article/details/21715599
2)word2vec 使用指导 http://blog.csdn.net/zhoubl668/article/details/24314769
将下载的所有文件放入word2vec文件夹下。
补充:
word2vec的原版代码是google code上的,也有改写的其他两个版本:
(1) c++11版本:(jdeng/word2vec) 下载地址: https://github.com/jdeng/word2vec
该代码可以在windows下编译运行,但需要编译器支持c++11; 已使用VS2013编译通过并运行:运行vs2013命令提示符,cd进入代码目录,输入cl main.cc,然后编译即可;训练命令直接是main,测试命令是“main test”。 运行和测试同样需要text8、questions-words.txt文件。 该版本输出的model文件为文本格式。
(2) java版本:下载地址:https://github.com/NLPchina/Word2VEC_java
经测试,OK。 也可以使用该java代码加载上述c++11版本的model,但需要自行添加load的代码。
2. 下载训练数据
下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。
(1).中科院自动化所的中英文新闻语料库 http://www.datatang.com/data/13484
中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte版本。
(2).搜狗的中文新闻语料库 http://www.sogou.com/labs/dl/c.html
包括搜狐的大量新闻语料与对应的分类信息。有不同大小的版本可以下载。
(3).李荣陆老师的中文语料库 http://www.datatang.com/data/11968
压缩后有240M大小
(4).谭松波老师的中文文本分类语料 http://www.datatang.com/data/11970
不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。能够作为层次分类的语料库,非常实用。这个网址免积分(谭松波老师的主页):http://www.searchforum.org.cn/tansongbo/corpus1.php
(5).网易分类文本数据 http://www.datatang.com/data/11965
包含运动、汽车等六大类的4000条文本数据。
(6).中文文本分类语料 http://www.datatang.com/data/11963
包含Arts、Literature等类别的语料文本。
(7).更全的搜狗文本分类语料 http://www.sogou.com/labs/dl/c.html
搜狗实验室发布的文本分类语料,有不同大小的数据版本供免费下载
(8).2002年中文网页分类训练集 http://www.datatang.com/data/15021
2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生,人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。它包括11678个训练网页实例和3630个测试网页实例,分布在11个大类别中。
3. 将预料库进行分词并去掉停用词,可以使用的分词工具有:
StandardAnalyzer(中英文)、ChineseAnalyzer(中文)、CJKAnalyzer(中英文)、IKAnalyzer(中英文,兼容韩文,日文)、paoding(中文)、MMAnalyzer(中英文)、MMSeg4j(中英文)、imdict(中英文)、NLTK(中英文)、Jieba(中英文),这几种分词工具的区别,可以参加:http://blog.csdn.net/wauwa/article/details/7865526。本文使用Jieba分词工具。
4、
1)使用word2vec分析红楼梦中的人物 http://blog.csdn.net/zhaoxinfan/article/details/21715599
2)word2vec 使用指导 http://blog.csdn.net/zhoubl668/article/details/24314769
3)再谈word2vec http://blog.csdn.net/jj12345jj198999/article/details/27352659
4)Deep Learning in NLP (一)词向量和语言模型 http://licstar.net/archives/328#s20 http://www.52cs.org/?p=22
5)利用word2vec对关键词进行聚类 http://blog.csdn.net/zhaoxinfan/article/details/11069485
6)Windows下使用Word2vec继续词向量训练, http://www.bkjia.com/yjs/953485.html
7)深度学习word2vec 笔记 http://www.open-open.com/lib/view/1420689477515
8)word2vec c源码分词 http://blog.csdn.net/jj12345jj198999/article/details/11632665
9)文本深度表示模型Word2Vec http://suanfazu.com/t/wen-ben-shen-du-biao-shi-mo-xing-word2vec/258
10) word2vec 代码实现(2) – CBOW