用一个三层神经网络计算一个窗口的得分
维度分析:如果我们使用 4 维的词向量来表示每个单词并使用 5 个词的窗口,则输入是 x∈ 。如果我们在隐藏层使用 8 个 sigmoid 单元和从激活函数中生成一个分数输出,其中 W∈ , b∈, U∈, s∈R 。
使用SGD更新参数:
上节课有提到,在更新参数是时计算 ∇θJ(θ)的方法
- 手工计算
- 算法:反向传播
1.手工推导
1.1 导数链:
对于单变量函数:乘以导数
对于一次处理多个变量:乘以雅可比矩阵
由于使用的是 element-wise,所以 hi=f(zi)
函数有n个输出和n个输入 → n×n 的雅可比矩阵
1.2 推导
- 把方程分解成简单的片段