深度学习之word embedding学习笔记（3）

最新推荐文章于 2024-03-11 15:31:31 发布

Mr Robot

最新推荐文章于 2024-03-11 15:31:31 发布

阅读量289

点赞数 1

分类专栏：深度学习人工智能 NLP 文章标签：自然语言处理深度学习

本文链接：https://blog.csdn.net/leva345/article/details/119939569

版权

人工智能同时被 3 个专栏收录

135 篇文章 6 订阅

订阅专栏

深度学习

93 篇文章 10 订阅

订阅专栏

NLP

25 篇文章 0 订阅

订阅专栏

Word2Vec

什么是 Word2vec
在聊 Word2vec 之前，先聊聊 NLP (自然语言处理)。NLP 里面，最细粒度的是词语，词语组成句子，句子再组成段落、篇章、文档。所以处理NLP 的问题，首先就要拿词语开刀。举个简单例子，判断一个词的词性，是动词还是名词。用机器学习的思路，我们有一系列样本(x,y)，这里 x 是词语，y 是它们的词性，我们要构建f(x)->y 的映射，但这里的数学模型 f（比如神经网络、SVM）只接受数值型输入，而 NLP 里的词语，是人类的抽象总结，是符号形式的（比如中文、英文、拉丁文等等），所以需要把他们转换成数值形式，或者说——嵌入到一个数学空间里，这种嵌入方式，就叫词嵌入（word embedding)，而Word2vec，就是词嵌入（ word embedding) 的一种。

什么是 Word2vec
我们来看个例子，如何用 Word2vec 寻找相似词：对于一句话：『她们夸吴彦祖帅到没朋友』，如果输入 x 是『吴彦祖』，那么 y 可以是『她们』、『夸』、『帅』、『没朋友』这些词现有另一句话：『她们夸我帅到没朋友』，如果输入 x 是『我』，那么不难发现，这里的上下文 y 跟上面一句话一样
从而 f(吴彦祖) = f(我) = y，所以大数据告诉我们：我 = 吴彦祖（完美的结论）

Skip-gram 和 CBOW 模型
上面我们提到了语言模型
如果是用一个词语作为输入，来预测它周围的上下文，那这个模型叫做『Skip-gram 模型』
而如果是拿一个词语的上下文作为输入，来预测这个词语本身，则是『CBOW 模型』

CBOW 和Skip-gram 模型迭代的方法
目前基于迭代的方法获取词向量大多是基于语言模型的训练得到的，对于一个合理的句子，希望语言模型能够给予一个较大的概率，同理，对于一个不合理的句子，给予较小的概率评估。具体的形式化表示如下：
在这里插入图片描述
CBOW 和Skip-gram 模型迭代的方法
第一个公式：一元语言模型，假设当前词的概率只和自己有关；
第二个公式：二元语言模型，假设当前词的概率和前一个词有关。那么问题来了，如何从语料库中学习给定上下文预测当前词的概率值呢？

CBOW 和Skip-gram 模型迭代的方法
a、Continuous Bag of Words Model（CBOW）
给定上下文预测目标词的概率分布，例如，给定｛The，cat，()，over，the，puddle｝预测中心词是jumped的概率，模型的结构如下：
在这里插入图片描述
CBOW 和Skip-gram 模型迭代的方法
a、Continuous Bag of Words Model（CBOW）

如何训练该模型呢？首先定义目标函数，随后通过梯度下降法，优化此神经网络。目标函数可以采用交叉熵函数：

CBOW 和Skip-gram 模型迭代的方法
a、Continuous Bag of Words Model（CBOW）
在这里插入图片描述
CBOW 和Skip-gram 模型迭代的方法
a、Continuous Bag of Words Model（CBOW）

再举例CBOW

再举例CBOW