word2vec 自己训练中文语料

45 篇文章 41 订阅 ¥49.90 ¥99.00
本文介绍了如何训练word2vec模型,包括准备全文本数据,使用NLPIR、LTP或结巴分词处理中文文本,以及利用gensim进行训练的步骤。
摘要由CSDN通过智能技术生成

(1) 准备文本

可以用爬虫爬,也可以去下载,必须是全文本。

(2)对数据进行分词处理

因为英文但此只见是空格所以不需要分词,二中文需要分词,


中文分词工具还是很多的,我自己常用的:
- 中科院NLPIR
- 哈工大LTP
- 结巴分词

注意:分词后保存的文件将会作为word2vec的输入文件进行训练

(3)训练与实验

python 需要先安装gensim,参考http://blog.csdn.net/u013378306/article/details/54629643

 

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""
功能:测试gensim使用&#
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

life1024

你的鼓励将是我创作的最大动力。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值