词向量模型Word2Vec

最新推荐文章于 2024-05-30 15:58:15 发布

没有难学的知识

最新推荐文章于 2024-05-30 15:58:15 发布

阅读量4.4k

点赞数 5

文章标签： word2vec 深度学习机器学习

本文链接：https://blog.csdn.net/m0_51797359/article/details/126156842

版权

1.词向量模型通俗解释

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

词库表(Look up embeddings)
在输入神经网络之前，我们需要在词库表中找到对应的词向量，然后得到右边的输出结果
大表一开始是随机进行初始化的，比如现在所有文本当中一共包含一千个词，我们先将一千个词列出来，然后跟神经网络的权重初始化是一样的，随机构造一些初始化的策略，然后就随便初始化一些向量
神经网络在计算过程中，前向传播计算的是loss，反向传播是通过loss去更新权重参数，而此时在Word2Vec中，不光会更新整个神经网络模型权重参数矩阵，连输入也会进行更新，相当于大表是随机进行初始化的
随着训练的进行，每次都会将训练的数据进行更新，一旦训练了100万次之后，就其中的每个词都进行了很多次更新，越进行更新，神经网络学得越好，学得越好的情况下，计算机能表达出当前词向量，也能把下一个词猜得更准确一些

在这里插入图片描述

数据：一切可用的文本、图像都可以作为数据进行输入，比如小说中的“今天”跟新闻中的“今天”表达的是一个含义，所以“今天”可以运用在任何场景
当我们拿到一句话(Thou shalt not make a machine in the likeness of a human mind)之后，假设窗口大小为3，那么A(Thou)和B(shalt)相当于两个输入，再输出就是C(not)，这就是第一个训练数据(如下图第一行)
将窗口往右边进行滑动，那么原来的B窗口的位置变成了之前窗口C对应的字母，即输入和输出不一样了，这样就形成了第二个训练数据(如下图第二行)
总结步骤：自己组建滑动窗口大小，记录输入输出，再进行滑动，所以说当前任务并不是有监督的数据集，因为无论什么数据拿过来都是可以做的，但是一定得是有逻辑才是可以用的

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

通过前向传播，我们得到Error值
再通过Error值，反向传播，看看权重参数如何进行更新
对比之前的神经网络是得到loss值，然后反向传播去更新 $w$ ，因为 $w x = f$ ，所以对 $w$ 求偏导 $\frac {\partial f} {\partial w}$
而该模型是即要对 $w$ 求 $\frac {\partial f} {\partial w}$ ，也要对 $x$ 求 $\frac {\partial f} {\partial x}$ ， $w$ 和 $x$ 都要更新

在这里插入图片描述

上述的方案，判断not后面是thou还是不是thou，变成了一个二分类，也就是target值为0或者1，如果一段文字上下文中not后面的值有四种，那么对应到表格中target值就均为1，无法进行较好的训练
改进方案：加入一些负样本（负采样模型）
人为的创建一些词，使得target值为0，例如，not 后面不能加I，记为Negative examples负样本、
负采样的个数一般5个就行了，因为工具包Gehsim（一个非常好的工具包），默认参数是5个