word2vec学习笔记

最新推荐文章于 2024-03-20 21:05:16 发布

jose_yubin

最新推荐文章于 2024-03-20 21:05:16 发布

阅读量143

点赞数

分类专栏：算法

本文链接：https://blog.csdn.net/qq351564759/article/details/79925904

版权

算法专栏收录该内容

3 篇文章 0 订阅

订阅专栏

[TOC]
首先我们是想，做这么一件事：根据前文出现的3个词，预测第四个词是什么？
试想，如果已经给我们一组参数，把这组参数和已经出现的三个词做运算，求出来的的最大概率就可以认为是预测的第四个词。那么问题来了，这组参数怎么求呢？经典的机器学习模型，逻辑回归中可以找到一些类似的思想。

逻辑回归的流程

已经有样本集合 $D=\left \{ \left ( x^{1},y^{1} \right ),\left ( x^{2},y^{2} \right ),..,\left ( x^{m},y^{m} \right ) \right \}$ ,沿用从吴恩达老师课堂上学到的的记号，这里的上角标表示第几个样本，为什么不用下角标表示呢，因为每个样本 $(x^{i},y^{i})$ 可能，并且事实上确实就会许多个属性 ${x_{1}^{1},x_{2}^{1},x_{3}^{1},...}$ ，上角标表示第几个样本，下角标表示该样本的第几个属性， $x_{1}^{1}$ 就是第一个样本的第一个属性。现在的问题就是，根据已经有的数据和标签，根模型据训练出来一组参数 $\theta$ ，使得再给我一个新的样本的属性，我能预测出来标签是什么，即 $y$ 是多少，在二分类中就是 $y=0$ 或者 $y=1$ 。因为我们可以根据得到的概率值和阀值来预测属于哪类，但是属性和参数的线性运算结果并不一样是在0～1之间，使用sigmoid函数做一个值域的映射。重点来了，极大似然。样本有了，思路也有了，但是怎么用数学符号表示我们已有的信息呢？回想一下，我们就是通过已有的属性和标签，计算出一组参数 $\theta$ 来预测新的数据。极大似然思想出现：根据极大似然的思想，样本属性的不确定数值确定了，导致它被分为某个类别，那么就有一组参数使得出现的这标签的概率最大。 $L\left ( \theta \right )=\prod_{i=1}^{n}P\left \{ X^{i}=x^{i} \right \}= \prod_{i=1}^{n}P\left \{ x^{i};\theta \right \}$ ,那么，哪一组参数 $\theta$ 可以让我们求函数取最大值？因为 $x^{i}$ 已经知道，所以就是关于 $\theta$ 的一元函数，求导是一种选择，另一种是常用的梯度上升法，这里为了后面的NNLM，使用梯度下降法。梯度的几何意义就是曲线上升最快的方向。由于我们最优化的一般都是损失函数，所以自然引出逻辑回归的损失函数定义： $L\left ( \theta \right )=-\prod_{i=1}^{n}P\left \{ X^{i}=x^{i} \right \}= -\prod_{i=1}^{n}P\left \{ x^{i};\theta \right \}$ ，这个函数求最小值就是使用梯度下降法。具体做法就是初始化一组参数 $\theta$ ，每次沿着梯度下降最快的方向走一小步，然后迭代直到最小值。求出来一组参数 $\theta$ 后，再来新的数据就可以带入求解，然后预测

NNLM

同样是上面那种，只不过换了一个场景：一个10w个词语的语料库，我们现在想通过前3个词，预测第四个词是啥东西，也就是那个词的概率最大？如果现在给我们一堆参数，前三个词语的词向量，计算输出一个10w维度的向量，最大的概率位置对应的就是那个词喽。在上述逻辑回归中，0.9就预测为1，是因为预测为0类别的概率为0.1<0.9。。一样的道理。那么这前三个词的向量是什么？一堆参数又是什么？类别逻辑回归中的 $\theta$ ，只不过这里的参数很多很多。通过模型+原始数据训练得到，模型就是NNLM，原始数据就是一堆文本，这一堆文本根据长度为4的窗口，从头开始滑动，切成许许多多个长度为4的文本。ok，现在训练集出来了，求参数吧。
最开始拿过来的前三个词语使用one-hot编码，10w纬度的～注意，此时我们并不知道这三个词的300纬向量是什么，这毕竟也是我们通过模型训练能得到一些有用信息之一。
NNLM输入是3个10w维度的one-hot表示的编码，经过C矩阵，（C也就是我们最后可以得到的10w个词语的300维词向量），300*10w的矩阵C分别乘以3个10w的行向量，得到的就是那三个词对应的300维词向量，输入到hidden层，一顿操作后得到500个单元的隐藏层，然后经过一个softmax得到10w的概率向量，然后根据我们已经实际的样本第四个词的词向量是啥，反向传播优化迭代。这是一个样本的，也就是前4个词语做的事情，后续还有很多这样的长度为4的样本。然后最终可求的10w词语的词向量和神经网络中的参数。模型求出来再来新的样本，即前三个词语，通过这个模型，就可以预测第四个是什么。

jose_yubin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
word2vec学习笔记

[TOC] 首先我们是想，做这么一件事：根据前文出现的3个词，预测第四个词是什么？试想，如果已经给我们一组参数，把这组参数和已经出现的三个词做运算，求出来的的最大概率就可以认为是预测的第四个词。那么问题来了，这组参数怎么求呢？经典的机器学习模型，逻辑回归中可以找到一些类似的思想。逻辑回归的流程已经有样本集合D={(x1,y1),(x2,y2),..,(xm,ym)}D={(x1,...
复制链接

扫一扫

专栏目录