【TEACH-NLP】词向量预处理-抽取词向量

最新推荐文章于 2024-01-22 17:42:40 发布

码世界-

最新推荐文章于 2024-01-22 17:42:40 发布

阅读量452

点赞数

分类专栏：自然语言处理 word2vec 深度学习文章标签：自然语言处理词向量预处理 NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lics999/article/details/101679339

版权

自然语言处理同时被 3 个专栏收录

8 篇文章 0 订阅

订阅专栏

4 篇文章 1 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

词向量训练完成之后，并不能直接使用，还需要做进一步的处理——抽取词表中对应的词向量。并不是所有的词向量都是有用的，我们仅用到词表中的词向量，将抽取出来的词向量保存成一个新的文件，以备后续使用。

【提要】

一、这里我们要用到之前的两个文件：

vocab.txt #词表

vec.bin #词向量表

二、还要生成一个新的文件来保存抽取出来的词向量：

select_vocab.txt #抽取出的词向量

三、要保证抽取出的词向量与词表中的位置一一对应，即如果单词出现在文件中的第3行，则其对应的词向量也应该在第三行。

接下来是正文：

由于是采用gensim训练的，因此直接采用gensim来load模型，省去了很多数据预处理的操作，代码也简洁不少。

代码如下：

相关解释已经在代码中注释了，在此不作过多赘述。

至此，关于词向量的处理可以告一段落了。

代码均在：https://github.com/pkulics/teach_NLP/blob/master/2_process_data/select_vec.py

本文与之前的两篇有关词向量预处理的文章很类似，只是采用的方式不同。想了解的可以移步之前的两篇文章：

使用glove词向量

http://lichangsong.win/?post=22

https://blog.csdn.net/lics999/article/details/79937303

使用word2vec词向量

http://lichangsong.win/?post=20

https://blog.csdn.net/lics999/article/details/78696023

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。