word2vec的实践

最新推荐文章于 2024-06-27 09:04:16 发布

bohu83

最新推荐文章于 2024-06-27 09:04:16 发布

阅读量1.4k

点赞数 4

分类专栏： NLP 文章标签： word2vec sklearn gensim jieba 文本分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bohu83/article/details/115246001

版权

NLP 专栏收录该内容

76 篇文章 24 订阅

订阅专栏

本文介绍了word2vec的理论基础，并通过Python的gensim库进行实践操作，包括模型训练和向量表示。在遇到gensim库版本更新导致的API变化时，进行了适配调整。同时，讨论了如何处理不同长度的样本和空值问题。实验结果显示，word2vec在特征工程中可能不如TF-IDF有效，尤其是在大型数据集上。最后，提出了使用词袋模型和doc2vec作为进一步处理长文本的可能方案。

摘要由CSDN通过智能技术生成

一序

理论部分，可以看之前 NLP学习笔记 36-word2vec

当然自己觉得整理的不够好，hanlp作者的一篇是结合代码分析的《word2vec原理推导与代码分析》

二验证

整体流程

使用 gensim

这个就是最简单的，这里的数据集就是一个分词之后的。如果单纯试验，从网上找对应的数据集就好。

如果是自己的数据（比如原始的文本），那就需要分词处理后生成。

遇到的问题：我开始参照网上的通常写法：

word2vec.Word2Vec(sentences, size=200)

Getting "__init__() got an unexpected keyword argument 'size'

size参数主要是用来向量的维度。新版本的API已经改名了。

model = word2vec.Word2Vec(cutWords_list,vector_size=100,window=5, min_count=1)

python的Gensim包升级版本后，里面很多调用方法已经发生了改变。几年前别人写的文章，你现在新安装的不一定好使。比如这个版本得加上wv才可以。这是我的安装信息

Using legacy 'setup.py install' for smart-open, since package 'wheel' is not installed.

Installing collected packages: smart-open, gensim

Running setup.py install for smart-open ... done

Successfully installed gensim-4.0.0 smart-open-4.2.0

效果：

某个词的向量：

同义词

比较词的相似度：

问题2 ：特征工程

各个样本的长度不一，我们现在有了基于词的word2vec映射数据对应到训练数据，那么以句子或者段（我的测试数据对应场景通常在20字以下，就是问答的提问）改怎么办呢？

网上大佬们给出了各种方向，没有机器资源测试，我能用的只是低配的小mac来试验下.

大佬说的第一种就是使用bag of words的方法，第二种就是doc2vec。我还是先尝试用简单的词向量处理来试试。

用numpy方法计算

模型训练：LR

上面是2000条的数据，如果用2w条跑，

超参数C太大不好，容易过拟合。之前那篇机器学习在医疗咨询分类的应用，可见使用了word2vec之后。准确率持平。但是没有TFIDF那么大稀疏的矩阵。

这种在百万级样本会体会的更加明显。

遇到的问题：

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

这个是里面有空值。numpy怎么替换还不会。但是可以训练之前验证下。

上面的np.isnan()=true 就是有空值了。

****************************************

两个层面：算法原理与工程化（主要是Python）都是入门，缺一不可。

只看别人的blog，尤其是自己不会的，不动手跑下代码是印象不深刻的。尤其是整理好的高质量的打标签数据集太重要了。

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
word2vec的实践

一序理论部分，可以看之前NLP学习笔记 36-word2vec当然自己觉得整理的不够好，hanlp作者的一篇是结合代码分析的《word2vec原理推导与代码分析》二验证1 词向量使用 gensim这个就是最简单的，这里的数据集就是一个分词之后的。如果单纯试验，从网上找对应的数据集就好。如果是自己的数据（比如原始的文本），那就需要分词处理后生成。遇到的问题：我开始参照网上的通常写法：word2vec.Word2Vec(sentences, size=200) ...
复制链接

扫一扫

专栏目录

bohu83 CSDN认证博客专家 CSDN认证企业博客

码龄17年

874: 原创

2万+: 周排名

224万+: 总排名

175万+: 访问

: 等级

2万+: 积分

991: 粉丝

411: 获赞

277: 评论

1910: 收藏

私信

关注

热门文章

分类专栏

在职学习 2篇
ES 63篇
PMP 45篇
数据库分库分表 16篇
python 40篇
NLP 76篇
推荐系统 1篇
leetcode 95篇
redis从入门到放弃 44篇
MYSQL 84篇
容器化 3篇
并发系列整理 43篇
支付系统 16篇
java 60篇
JVM 30篇
J2EE 27篇
nginx 1篇
RPC 8篇
算法 68篇
服务器 11篇
数据库 87篇
设计模式 4篇
分布式 38篇
网络 14篇
工作资料 57篇
随想 9篇
kafka 12篇
数学 15篇
财务 6篇

最新评论

《算法图解》-9动态规划背包问题，行程最优化
qq_63136240: 看要求，本类型背包问题属于0-1背包问题，即一类商品要么选一个要么不选，故指两个子背包，一个有该行物品的背包一个则代表没有改行的物品。至于子背包可能含有子背包的意思是：比如当我们把该行物品放入背包后，剩下的空间又相当于一个更小的背包（考虑是否放入另一个物品j（非本行）来分解成更小的子背包问题）我的理解，可能不对
Elasticsearch核心技术与实战学习笔记
一念花开一念花落: 你好： doc_count_error_upper_bound：4+3 请问是怎么来的，没有看懂
《程序员的数学：5 排列组合》
彩虹大喇叭: 为什么要除以2啊，最后，不是很理解
word2vec Skip-Gram和CBOW小白学习笔记
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/7988951, 请多输出高质量博客, 帮助更多的人
北京联通烽火光猫+烽火HG680 不拆机破解
showma: 好办法

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。