Cousera - Machine Learning - 课程笔记 - Week 5

最新推荐文章于 2022-10-10 19:16:14 发布

支锦铭

最新推荐文章于 2022-10-10 19:16:14 发布

阅读量120

点赞数

分类专栏： Cousera-课程笔记文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/cary_leo/article/details/105719414

版权

141 篇文章 17 订阅

订阅专栏

2018年9月版本

Week 5

$J(\Theta) = -\frac{1}{m}[\sum\limits_{i=1}^{m} \sum_{k=1}^{K} y_k^{(i)} \log (h_{\Theta}(x^{(i)}))_k+(1-y_k^{(i)}) \log (1-(h_{\Theta}(x^{(i)}))_k)]+ \frac {\lambda}{2m}\sum\limits_{l=1}^{L-1} \sum\limits_{i=1}^{s_l} \sum\limits_{j=1}^{s_{l+1}}(\Theta_{ji}^{(l)})^2$
$h_{\Theta}(x) \in R^K,\;(h_{\Theta}(x))_i=i^{th}\;output$
注意正规项，为了能够更多地去除偏置项对代价函数的影响，只取1，1到结束的全部值，零行零列均被忽略

寻找最小 $J(\Theta)$
需要计算 $J(\Theta)$ 和 $KaTeX parse error: Undefined control sequence: \part at position 7: \frac{\̲p̲a̲r̲t̲}{\part\Theta_{…$
算法过程
- 训练集 ${(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\ldots,(x^{(m)},y^{(m)})}$
- 令 $\Delta_{ij}^{(l)}=0$ ，用于累加 $KaTeX parse error: Undefined control sequence: \part at position 7: \frac{\̲p̲a̲r̲t̲}{\part\Theta^{…$
- 对 $\;to\; m$
  - 令 $a^{(1)}=x^{(t)}$
  - 正向传播计算 $a^{(l)}$
  - 利用 $y^{(t)}$ ，计算 $\delta^{(L)}=a^{(L)}-y^{(t)}$
  - 计算所有的 $\delta^{(L-1)},\delta^{(L-2)},\ldots,\delta^{(2)}$ ， $\delta^{(l)}=((\Theta^{(l)})^T\delta^{(l+1)}).*a^{(l)}.*(1-a^{(l)})$
  - $\Delta^{(l)}_{ij}:=\Delta^{(l)}_{ij}+a^{(l)}_j\delta^{(l+1)}_i$ ，向量形式为 $\Delta^{(l)}:=\Delta^{(l)}+\delta^{(l+1)}(a^{(l)})^T$
- $D^{(l)}_{ij}:=\frac{1}{m}(\Delta^{(l)}_{ij}+\lambda\Theta^{(l)}_{ij})\; if\; j \ne0$
- $D^{(l)}_{ij}:=\frac{1}{m}\Delta^{(l)}_{ij}\; if\; j = 0$
- $KaTeX parse error: Undefined control sequence: \part at position 7: \frac{\̲p̲a̲r̲t̲}{\part \Theta^…$
$KaTeX parse error: Undefined control sequence: \part at position 23: …{(l)}_j=-\frac{\̲p̲a̲r̲t̲}{\part z^{(l)}…$

选择一种神经网络架构，即层数、每层单元数等
- 特征数量决定了输入层神经元个数
- 分类的类别总数决定了输出层神经元个数（注意多元分类的结果书写形式）
- 默认只是用一个隐藏层，如果超过一层，每层应当个数相同
- 越多越好
随机初始化权重，要求非常小，接近于零
实现正向传播，以获得 $h_{\Theta}(x^{(i)})$
实现代价函数 $J(\Theta)$ 的计算
实现反向传播，计算偏导数 $KaTeX parse error: Undefined control sequence: \part at position 7: \frac{\̲p̲a̲r̲t̲}{\part \Theta^…$
使用梯度检查检查上述方式得到的偏导数的正确性
使用梯度下降或其他高级的优化方法，最小化代价函数值

关注