Word2vec

最新推荐文章于 2024-07-24 11:07:07 发布

leeyns

最新推荐文章于 2024-07-24 11:07:07 发布

阅读量56

点赞数

分类专栏： NLP 文章标签： word2vec 自然语言处理机器学习

本文链接：https://blog.csdn.net/leeyns/article/details/119992856

版权

NLP 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Word2vec是一个学习单词向量的框架

IDEA：

我们有大量的文本 (corpus means ‘body’ in Latin. 复数为corpora)
固定词汇表中的每个单词都由一个向量表示
文本中的每个位置 t，其中有一个中心词 c 和上下文(“外部”)单词 o
使用 c和 o的词向量的相似性来计算给定 c的 o的概率
不断调整词向量来最大化这个概率

在这里插入图片描述

目标函数
$L(\theta)=\prod_{t=1}^{T} \prod_{-m \leq j \leq m \atop j \neq 0} P\left(w_{t+j} \mid w_{t} ; \theta\right)$

损失函数
$J(\theta)=-\frac{1}{T} \log L(\theta)=-\frac{1}{T} \sum_{t=1}^{T} \sum_{m \leq j \leq m \atop j \neq 0} \log P\left(w_{t+j} \mid w_{t} ; \theta\right)J(\theta)=-\frac{1}{T} \log L(\theta)=-\frac{1}{T} \sum_{t=1}^{T} \sum_{m \leq j \leq m \atop j \neq 0} \log P\left(w_{t+j} \mid w_{t} ; \theta\right)$

L为目标函数，具体含义就是，遍历该语句，语句长度为T，意味着中心词的移动；
因为每次中心词时都要求该中心上下m个背景词和中心词的概率，所以背景词是t+j，j在-m到m之间，且不等于0；
θ是超参数矩阵；
我们希望目标函数的值最大化，但是往往最大化不容易求解，而最小值更容易求解，所以将上述L转化为J，J为损失函数，也就是L的等价变化的负值。

Predict Function
$P\left(w_{t+j} \mid w_{t} ; \theta\right)$ 如何计算？
每个单词都由两个向量表示：

$v_{w}$ 当 w 是中心词时
$u_{w}$ 当 w 是上下文词时

$\mid c)=\frac{\exp \left(u_{o}^{T} v_{c}\right)}{\sum_{w \in V} \exp \left(u_{w}^{T} v_{c}\right)}$

使用梯度下降来更新参数
$\begin{aligned} \frac{\partial}{\partial v_{c}} \log P(o \mid c) &=\frac{\partial}{\partial v_{c}} \log \frac{\exp \left(u_{o}^{T} v_{c}\right)}{\sum_{w \in V} \exp \left(u_{w}^{T} v_{c}\right)} \\ &=\frac{\partial}{\partial v_{c}}\left(\log \exp \left(u_{o}^{T} v_{c}\right)-\log \sum_{w \in V} \exp \left(u_{w}^{T} v_{c}\right)\right) \\ &=\frac{\partial}{\partial v_{c}}\left(u_{o}^{T} v_{c}-\log \sum_{w \in V} \exp \left(u_{w}^{T} v_{c}\right)\right) \\ &=u_{o}-\frac{\sum_{w \in V} \exp \left(u_{w}^{T} v_{c}\right) u_{w}}{\sum_{w \in V} \exp \left(u_{w}^{T} v_{c}\right)}\\&=u_{0}-{\sum_{x\in V}p(x \mid x)u_{x}} \end{aligned}$

leeyns

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Word2vec

Word2vec是一个学习单词向量的框架IDEA：我们有大量的文本 (corpus means ‘body’ in Latin. 复数为corpora)固定词汇表中的每个单词都由一个向量表示文本中的每个位置 t，其中有一个中心词 c 和上下文(“外部”)单词 o使用 c和 o的词向量的相似性来计算给定 c的 o的概率不断调整词向量来最大化这个概率目标函数L(θ)=∏t=1T∏−m≤j≤mj≠0P(wt+j∣wt;θ)L(\theta)=\prod_{t=1}^{T} \prod_{-
复制链接

扫一扫

专栏目录