word2vec需要去标点吗_word2vec训练词向量前期处理-中文分词等

本文介绍了在word2vec训练前的准备工作,包括选择语料库,使用jieba进行分词处理,以及如何自定义词典以适应特定领域的词汇。在分词过程中,需要注意保留换行符作为句子分隔符,以便word2vec正确处理上下文。
摘要由CSDN通过智能技术生成

1.选择语料库

这个是我项目私人的语料库

具体操作方法就是把所有要处理的文字放到一个文件里,标点符号什么的可以等在分词的时候逐行处理,反正要逐行分词~

如图:

cca648b4c1a3?from=singlemessage

只能窥探一角~

2.分词处理

分词工具我选择的是jieba

项目地址:https://github.com/fxsjy/jieba

这上面的文档齐全,足够

1)安装jieba:

看到网站上“全自动”安装几个大字了吧~安装好之后测试效果:

cca648b4c1a3?from=singlemessage

2)自定义词典

参考官方解释:https://github.com/fxsjy/jieba/blob/master/test/userdict.txt

我的语料库是体育相关的,所以很多词汇jieba里面是没有的,所以要添加自定义词典,把新词加进去。

看他的官方解释,如果你想让你自定义的词必须一定要被分出来,可以把最后一列的值调的很大,例如2000

我的词典如下:

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
训练词向量,可以使用word2vec模型进行训练,具体步骤如下: 1. 准备语料库:从文维基百科、新闻语料库、微博等网站上下载语料,可以使用jieba等中文分词工具进行分词。得到的文本应该去除停用词、标点符号等干扰项。 2. 安装Python模块:gensim是Python的一个自然语言处理库,它包含了Word2Vec模型的实现,安装gensim模块即可进行词向量训练。 3. 读入语料:利用gensim的LineSentence读入语料库。 4. 训练模型:创建Word2Vec对象,配置参数,使用模型进行训练。 5. 保存模型:将训练好的模型保存起来,方便后续使用。 具体代码如下: ```python from gensim.models import Word2Vec from gensim.models.word2vec import LineSentence # 读入语料库 sentences = LineSentence('corpus.txt') # 配置参数,训练模型 model = Word2Vec(sentences, size=300, window=5, min_count=5, workers=4) # 保存模型 model.save('word2vec.model') ``` 在训练模型时,需要对参数进行配置,包括: - size:词向量的维度,默认值是100,但对于词向量,建议增加到300或更高。 - window:词向量训练时的上下文窗口大小,默认值是5,可以根据具体情况进行调整。 - min_count:指定词频阈值,小于该值的单词将被忽略,默认值为5。 - workers:训练模型时使用的线程数。 通过以上步骤,就可以训练词向量,用于自然语言处理任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值