CS224d lecture04

Xiao_yanling

于 2019-05-19 21:52:11 发布

阅读量119

点赞数

分类专栏： CS224

本文链接：https://blog.csdn.net/Xiao_yanling/article/details/90290896

版权

CS224 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

训练数据集： $\{x_i,y_i\}^N_{i=1}$

机器学习中的分类

假定输入x是固定的，训练参数W，预测 $P(y|x)=\frac{W_y,x)}{\sum^C_{c=1}exp(W_c,x)}$

具体过程：
在这里插入图片描述
C：总类别数。
W：模型参数矩阵。
对c=1…C都要计算 $f_c$ 。
$W_y\cdot{x}=\sum^d_{i=1}W_{y_i}x_i=f_y$
归一化：
$P(y|x)=\frac{exp(f_y)}{\sum^C_{c=1}exp(f_c)}=softmax(f)_y$

总体损失函数： $J(\theta)=\frac{1}{N}\sum^N_{i=1}-log(\frac{e^{f_{y_i}}}{\sum^C_{c=1}e^{f_c}})+\lambda{\sum_k\theta_k^2}$
其中 $\lambda{\sum_k\theta_k^2}$ 是正则项：使模型权值尽可能小。
$f = W x$ ： $f$ 是模型。

词窗口分类（Window Classification）

训练一个softmax分类器，给中心词分配一个标签，然后用一个窗口把它前后的单词连接起来。

例：窗口长度为2=>中心词左右各两个单词，加中心词，窗口内共五个单词。
$...museums\ in\ Paris\ are\ amazing...$
$x_{window}=[X_museums\ X_{in}\ X_{Paris}\ X_{are}\ X_{amazing}]^T\in{R^{5d}}$
$x=x_{window}$ :
$\widehat{y_y}=P(y|x)=\frac{exp(W_y\cdot{x})}{\sum^C_{c=1}exp(W_c\cdot{x})}$
其中 $\widehat{y_y}$ 指模型预测的正确类别。

更新词向量

标记：
$t$ ：目标概率分布。独热向量：只有在正确类别y的值为1，其余为零。
$f=f(x)=Wx\in{R^C}$ ：C维向量，C是类别的数量。
链式法则：
$\frac{\partial}{\partial{x}}-log(softmax(f_y(x))$
$=\sum^C_{c=1}-\frac{\partial{log(softmax(f_y(x)}}{\partial{f_c}}\cdot{\frac{\partial{f_c(x)}}{\partial{x}}}$
考虑两种情况：
（1） $c = y$ 。
（2） $c\neq{y}$
$\frac{\partial}{\partial{x}}-log(softmax(f_y(x))=[\widehat{y_1},\widehat{y_2},...,\widehat{y_y}-1,...\widehat{y_C}]^T$
在正确类别减一，其他什么也不做。
公式向量化：
$\frac{\partial}{\partial{x}}-log(softmax(f_y(x))=[\widehat{y}-t]=\delta$
$\delta$ ：误差信号
$=\sum^C_{c=1}-\frac{\partial{log(softmax(f_y(x)}}{\partial{f_c}}\cdot{\frac{\partial{f_c(x)}}{\partial{x}}}=\sum^C_{c=1}\delta_cW_c^T$
$\frac{\partial}{\partial{x}}-logP(y|x)=\sum^C_{c=1}\delta_cW_c^T=W^T\delta\in{R^{5d}}$
这里的x指窗口，则：
$\nabla_xJ=W^T\delta=\delta_{x_{window}}=[\nabla_{x_{museums}},\nabla_{x_{in}},\nabla_{x_{Paris}},\nabla_{x_{are}},\nabla_{x_{amazing}}]^T\in{R^{5d}}$
这个窗口中有 $i n$ ，则这个梯度会出现在所有包含 $i n$ 的窗口中。