自然语言处理-词向量模型-Word2Vec

乔大将军

已于 2024-06-28 11:45:53 修改

阅读量1.3k

点赞数 21

分类专栏：机器学习 NLP 文章标签：自然语言处理 word2vec 人工智能机器学习

于 2024-04-08 17:41:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JamesSwifte/article/details/137476021

版权

机器学习同时被 2 个专栏收录

24 篇文章 3 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

本文介绍了词向量在自然语言处理中的关键作用，包括词向量的定义、生成方法、实际意义以及不同模型（如CBOW和Skipgram）的对比。着重讨论了如何构建输入数据和解决大规模语料库中的负采样问题，以及词向量的训练过程和优化方法。

摘要由CSDN通过智能技术生成

目录

二、词向量

三、词向量的实际意义

四、模型的整体框架

五、构建输入数据

六、不同模型的对比

七、负采样方案

一、前言

计算机只认识数值数字，那么怎么认识自然语言呢？？？答案就是将自然语言转换转换成数值，就词向量。

先来考虑一个问题，如何能将文本向量化呢？？？看起来比较抽象，可以先从人的角度来观察。

如何来描述一个人呢？？？只用身高或者体重，还是，综合其各项指标呢？？

例如：Kevin Durant 身高211cm, 体重90kg，这能完全描述他吗？？？当然不能，还有NBA超巨，全明星，死神，等等描述。

二、词向量

词向量(Word Embedding)是自然语言处理(NLP)中的一种技术，它可以将词汇表中的单词或短语映射到实数向量空间。以下是关于词向量的详细介绍：

词向量的核心在于将每个单词表示为高维空间中的一个点，这些点不仅代表了单词的语义信息，还可以通过计算向量之间的距离来分析词语之间的关联性和相似性。

词向量的生成方法包括神经网络、单词共生矩阵降维、概率模型等，这些方法使词向量能够捕捉到语言数据中的分布属性，从而量化语言项之间的语义相似性。

词向量已被广泛应用于各种NLP任务中，如语法分析、情感分析、命名实体识别、同义词寻找、词性标注、语义角色标注、句法分析和短语识别。

词向量的一个重要优势是它们能够捕获单词之间的细微差别和语义关系，例如，“king”和“queen”之间的向量差异可以反映出性别差异。尽管词向量技术已经相当成熟，但它们仍面临一些限制，比如可能将单词的多个含义混合在一个单一的向量中，这限制了对具有多重含义单词的精确表达。未来的研究可能会集中在如何改进词向量技术，以更准确地表示单词的含义和用法。

例如：Kevin Durant生成的词向量

0.02323

0.33452

-0.97865

1.35533

-9.23443

2.23344

...

3.99457

那么这个向量在我们人看来，不能理解为什么是这样，但是计算机可以认出来，这个就是Kevin Durant，包括他所有的描述。而且这个向量的维度50~300维（google得出的）。

只要有了向量就可以用不同的方法来计算相似度。

通常用欧氏距离，余弦距离等等。

$cosine\_ similarity([-0.4,0.8],[-0.3,0.2])=0.87\;yes$

$cosine\_ similarity([-0.4,0.8],[-0.5,-0.4])=-0.20\;no$

如果我们用一个二维的向量空间来表达词向量，可以吗？？？

虽然可以表达，但是表达的信息太少了。

通常，数据维度越高，能够提供的信息越多，从而计算的结果的可靠性就更值得信赖。

那么词向量真真的有实际意义吗？或者说能表达出词的意思吗？

三、词向量的实际意义

我们先看这样的图

其实King和Queen他们又有实际意义，而且两个词都相似，所以在词向量表达中，有相同的部分。

光看数字我们难以观察到，把数字转换成热度图。

假如，我们已经训练好了一个词的向量

四、模型的整体框架

在词向量模型中输入和输出分别是什么？？？

让模型学到一个词用什么样的向量表达最为合适。

如果用神经网络来训练模型，就是让神经网络学到前后文的一个逻辑关系。

我们可以看到，输入单词进入模型，然后模型训练，前向传播得到损失值，反向传播，更新参数，更新embeddings表。

这里 embeddings表指的是语料库的一个大表，它装有所有的词。而且是用词向量来表达。在开始的时候对于这个表进行一个类似于神经网络权重参数的初始化操作。而且与神经网络不同的是不仅仅要更新权重参数，还要跟新此表，达到让模型学到一个词用什么样的向量表达最为合适的目的。

查找输入的词，得到词向量，在经过向量矩阵计算得到一个结果值，类似于做一个分类任务，看那个词的概率最大。这样达到预测到下一个词是什么，让神经网络学到前后文的一个逻辑关系的目的。

五、构建输入数据

数据从哪里来？

everywhere，只要符合自然语言的上下文逻辑即可。

如何构建训练数据

可以自己构建数据集，在一篇文章中，采用滑动窗口策略。

这样其实来看，输入数据集是很好构建的。

六、不同模型的对比

1. CBOW模型

如图，采用滑动窗口策略，Jay was hit by a 框起来，那么输入就是Jay was by a 输出就是 hit。

2. Skipgram模型

同样的，采用滑动窗口策略， Jay was hit by a 框起来，那么输入就是 hit 输出就是 Jay was by a。

七、负采样方案

问题：一个语料库很大，5W，10W，100W，那么在做得分计算，损失计算，概率计算，SoftMax归一化的时候，计算量可想而知的大。那么如何去处理这样的一个问题呢？？？

初始方案：输入两个单词看看他们是不是前后文对应的输入和输出，也就相当于一个二分类任务了。

出发点很好，但此时训练集构建出来的标签按照二分类标准来说就全是1了，无法进行较好的训练。

改进方法：

负采样方案

意思就是在构造数据集时，加入一些不对应上下文的词，并且标签设置为0。上图以Skipgram模型为例，一般加入5个负采样的样本。

八、总结

1. 初始化磁向量矩阵

input word和output word都是输入数据，且input word在Embedding里找，output word在Context里找。

2. 通过神经网络反向传播来计算更新，不光更新权重矩阵W，也要更新输入数据。

3. 得到最有可能的值。

关注

21
点赞
踩
28

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

乔大将军 CSDN认证博客专家 CSDN认证企业博客

码龄4年

西南石油大学

30: 原创

110万+: 周排名

4万+: 总排名

3万+: 访问

: 等级

919: 积分

577: 粉丝

600: 获赞

37: 评论

557: 收藏

私信

关注

热门文章

分类专栏

机器学习 24篇
NLP 2篇
深度学习 4篇
论文写作 1篇

最新评论

自然语言处理-BERT处理框架-transformer
Kwan的解忧杂货铺@新空间代码工作室: 你的文章总是让我拓展了视野，增长了见识，每篇博文都是知识的瑰宝，我真的很喜欢你的风格，感谢你的专业分享。期待你的下一次精彩分享。
GAN实例基于神经网络
Kwan的解忧杂货铺@新空间代码工作室: 博主的文章总是让人受益匪浅，知识的分享太有价值了，期待你继续灌输智慧！博主的文字清晰明了，让我在这个领域更加有信心，真的谢谢你的辛勤付出。
数据增强，迁移学习，Resnet分类实战
普通网友: 写的很详细，感谢博主的分享。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
数据增强，迁移学习，Resnet分类实战
Kwan的解忧杂货铺@新空间代码工作室: 博主的博客是我的学习良师，每篇文章都充满了启发，让我得到了更多的智慧，每一次阅读都是一次知识的盛宴，让我增长了不少见识，你的博文总是给予我新的思考和启发，真的很感谢你一直以来的辛勤付出。期待你的未来更新。
卷积神经网络
普通网友: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。