深度学习中文NLP任务实战（一）：中文词向量的训练

最新推荐文章于 2024-09-10 06:58:53 发布

Ding_xiaofei

最新推荐文章于 2024-09-10 06:58:53 发布

阅读量5.8k

点赞数 3

分类专栏：文本处理 NLP 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ding_xiaofei/article/details/80957083

版权

本文是针对中文NLP实战的入门教程，聚焦于使用gensim训练词向量。作者解释了为何需要自定义词向量，特别是在处理特定领域数据时，并分享了从未经分词处理的数据到训练词向量的过程，包括数据来源、分词方法及使用gensim进行词向量训练的步骤。

摘要由CSDN通过智能技术生成

开篇

最近在做相似度检测的项目，由于是公司的实战项目，所以处理的都是中文，自己也算个小白，所以写一个入门的教程吧。这是第一篇，中文词向量的训练。

gensim训练词向量

首先我们为什么要自己训练词向量呢？为什么不直接使用别人训练好的词向量呢。原因也很简单，当我们处理特定领域的数据的时候，很多领域词在其他公共语料里面是没有的，这就必须要求我们能够训练自己的词向量，来处理特定领域的数据。

数据来源于蚂蚁金服的人工智能比赛，数据不是公开的，所以我不放出数据，有兴趣的可以去参加比赛。

数据大概是这样，下图所示是没有经过分词处理的

当然这样的数据是不能直接训练词向量的，首先我们要做的还是分词，这边采用的哈工大开源的pyltp，为了保证有些业务新词不会被错分，我还加如了业务新词词典lexicon，里面包括了花呗之类的词，因为pyltp会把花呗分词为花、呗。
下面放出我分词的函数代码，大家有什么疑问可以在我的博客下面留言

def word_cut(sentence):
    LTP_DATA_DIR =

最低0.47元/天解锁文章

关注

3
点赞
踩
24

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。