NLP学习笔记十二-skip-gram模型求解

Mr Gao

已于 2023-06-15 01:27:56 修改

阅读量1k

点赞数

分类专栏：自然语言处理文章标签：自然语言处理学习笔记

于 2023-06-15 01:14:30 首次发布

本文链接：https://blog.csdn.net/weixin_43327597/article/details/131218666

版权

自然语言处理专栏收录该内容

26 篇文章 4 订阅

订阅专栏

文章介绍了skip-gram模型的核心原理，该模型基于分布相似性，通过词向量表征矩阵和背景词表征矩阵来捕获词的上下文信息。模型忽略了位置信息，认为上下文词同等概率出现，通过softmax处理得到词语选择概率，并使用反向传播(BP)算法更新矩阵参数。

摘要由CSDN通过智能技术生成

NLP学习笔记十一-skip-gram模型求解

上一篇文章，我们见到了skip-gram模型的原理，这里我们在陈述一下skip-gram模型其实是基于分布相似性原理来设计的，在skip-gram模型中，他认为一个词的内涵可以由他的上下文文本信息来概括，，那么基于这个原理，skip-gram模型设计了两个矩阵，一个是词向量表征矩阵，也就是这个向量中每一行代表了一个词的嵌入向量，也就是表征信息，又设计了一个表示词语在上下问中做背景词是的表征矩阵，在这个矩阵中每一行，表示一个词语做上下问词语时自己的表征信息。当一个词作为中心词，在乘以背景词表征矩阵，经过softmax处理，会得到一个向量，这个向量元素之和为1，向量长度为词语集合类别数，每个元素的值代表一个词语被选择的概率。当我们输入一个词语序列，我们会根据该词语序列计算2m次概率向量，因为窗口大小为m，也就是输入了2m个上下文词语，此时我们需要做的就是对两个矩阵进行更新，假设输入中心词的表征向量为 $w_I$ ，输入上下文文本词语的表征向量为 $w_{O,1},w_{O,2},w_{O,3},,,,,,w_{O,C}$ 。
C=2m
那么此时损失函数如下：

在这里插入图片描述

这里很多人可能会疑惑，为什么是这样的所示函数，这里大家要注意啊，skip-gram模型是忽略位置信息影响的，也就是说skip-gram模型，他认为上下文中出现的词语，都是同等的概率出现的，也就是说，出现一个中心词，那么它可能对应出现的其实不是上下文文本信息，而是一个上下文词语集合，且集合中的词语没有相关性，那么就会得到上面一个公式，因为上下文词语没有位置顺序，没有相关性，那么
联合和概率就可以直接拆分：
如下：
P(a,b|c)=P(a|c)*P(b|c)

就是上面这个公式体现的原理。
然后就是使用BP算法求导更新中心词的表征向量为 $w_I$ ，和上下文文本词语的表征向量为 $w_{O,1},w_{O,2},w_{O,3},,,,,,w_{O,C}$ 。