笔记：ML-LHY-14: Unsupervised Learning - Word Embedding

最新推荐文章于 2021-08-05 13:31:25 发布

snoopy_21

最新推荐文章于 2021-08-05 13:31:25 发布

阅读量270

点赞数

分类专栏：机器学习笔记李宏毅ML课程笔记

本文链接：https://blog.csdn.net/qq_29598161/article/details/109019370

版权

笔记同时被 3 个专栏收录

68 篇文章 7 订阅

订阅专栏

机器学习

32 篇文章 0 订阅

订阅专栏

李宏毅ML课程笔记

31 篇文章 4 订阅

订阅专栏

这节课主要介绍Word Embedding，有2种方法

Count based：和LSA类似，用GD求隐含向量表示。
Prediction based：利用文章中句子的词语顺序作为标签，训练一个神经网络。但是顺序是存在文章中的，这是无监督学习
pdf 视频

Word Embedding

在这里插入图片描述

Count based

这种方法和LSA类似：
在这里插入图片描述
如果 $w_i$ 和 $w_j$ 经常成对出现，那么用一个向量表示的 $V(w_i)$ 和 $V(w_j)$ 内积的值就会比较大。所以和LSA类似，可以用GD求隐含向量表示。

Prediction based

这个方法思想很巧妙，利用文章中句子的词语顺序作为标签，训练一个神经网络，大致训练过程如下：
在这里插入图片描述

那么这个网络我们并不是要网络的输出，而是用第一个隐藏层的输出作为一个词语的隐含向量表示：
在这里插入图片描述

上面就只有1个词语 $w_{i-1}$ ，监督标签是 $w_{i}$ ：
在这里插入图片描述
上面就只有2个词语 $w_{i-2}$ 、 $w_{i-1}$ ，监督标签是 $w_{i}$ ，当然也可以用>2个词输入，但是一般不会超过10个。

参数进行共享，1. 这样可以避免参数过多 2. 这样不会考虑顺序：
在这里插入图片描述
确保 $w_i$ 和 $w_j$ 一样，参数更新：
$\begin{array}{l} w_{i} \leftarrow w_{i}-\eta \frac{\partial C}{\partial w_{i}}-\eta \frac{\partial C}{\partial w_{j}} \\ w_{j} \leftarrow w_{j}-\eta \frac{\partial C}{\partial w_{j}}-\eta \frac{\partial C}{\partial w_{i}} \end{array}$