(1) 准备文本
可以用爬虫爬,也可以去下载,必须是全文本。
(2)对数据进行分词处理
因为英文但此只见是空格所以不需要分词,二中文需要分词,
中文分词工具还是很多的,我自己常用的:
- 中科院NLPIR
- 哈工大LTP
- 结巴分词
注意:分词后保存的文件将会作为word2vec的输入文件进行训练
(3)训练与实验
python 需要先安装gensim,参考http://blog.csdn.net/u013378306/article/details/54629643
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
功能:测试gensim使用&#