cs224n-1wordvec1

最新推荐文章于 2024-11-15 23:07:32 发布

ujn784

最新推荐文章于 2024-11-15 23:07:32 发布

阅读量103

点赞数

分类专栏：机器学习深度学习自然语言处理文章标签：自然语言处理

本文链接：https://blog.csdn.net/weixin_42365868/article/details/114517722

版权

9 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

对每个位置t=1,…,T, 预测在窗口大小为m的情况下给定中心词汇 $W_{j}$ , 预测其周围单词的概率，数据的似然函数
Likelihood： $L(\theta)=\prod_{t=1}^{T}\prod_{-m<=j<=m, j\neq0}P(W_{t+j}|W_{t}; \theta)$
目标函数为平均负似然函数，即
$J(\theta)=-\frac{1}{T}logL(\theta)\\ =-\frac{1}{T}\sum_{t=1}^{T}\sum_{-m\leq j\geq m, j\neq0}logP(W_{t+j}|W_{t}; \theta)$
极小化目标函数即最大化似然，极大化通过周围词预测得到中间词汇的概率

特别地，如何求解 $P(W_{t+j}|W_{t}; \theta)$ ?

定义带优化参数和数据：设 $\theta$ 为模型参数，它是一个2V*d维度的长向量（其中V为单词的个数，d为每个单词的维度，由于每个单词都有两种表现形式，故为2V）。
推导损失函数 $J(\theta)$ 对 $v_c$ , $u_o$ 求导：
$\frac{\partial J}{\partial v_t}=\frac{\partial ({-\frac{1}{T}\sum_{t=1}^{V}\sum_{-m\leq j\leq m}log\frac{exp(u_{t+j}^Tv_t)}{\sum_{w=1}^{T}exp(u_w^Tv_t)}})}{\partial v_t}$
$=-\frac{1}{T}\sum_{t=1}^{V}\sum_{-m\leq j\leq m}(\frac{\partial log({exp(u_{t+j}^Tv_t)}}{\partial v_t}-\frac{\partial log{\sum_{w=1}^{T}exp(u_w^Tv_t)}}{\partial \theta})$
$=-\frac{1}{T}\sum_{t=1}^{V}\sum_{-m\leq j\leq m}(u_{t+j}-\frac{1}{\sum_{w=1}^{V}exp(u_w^Tv_t)} \frac{\sum_{w=1}^{v}\partial exp(u_w^Tv_t)}{\partial v_t})$
$=-\frac{1}{T}\sum_{t=1}^{V}\sum_{-m\leq j\leq m}(u_{t+j}-\sum_{w=1}^{V}\frac{exp(u_w^Tv_t)}{\sum_{w=1}^{V}exp(u_w^Tv_t)}u_w)$
$=-\frac{1}{T}\sum_{t=1}^{V}\sum_{-m\leq j\leq m}(u_{t+j}-\sum_{w=1}^{V}P(u_w|v_t)u_w)$
观察结果发现， $\sum_{t=1}^{V}\sum_{-m\leq j\leq m}u_{t+j}$ 为我们的数据观测，表示 $u_{t+j}$ 作为背景词去预测 $u_{t}$ 的一个得分；而后一项 $-\frac{1}{T}\sum_{t=1}^{V}\sum_{-m\leq j\leq m}-\sum_{w=1}^{V}P(u_w|v_t)u_w)$ 使我们的模型学习到的结果，它表示在 $v_t$ 作为中心词的条件下，剩下所有词语出现的概率与这些词语数值的乘积。二者相减得到的差正好是模型需要从数据中学习的内容。