参考视频:coursera上ng上课视频
梯度下降知识补充:http://blog.csdn.net/wolenski/article/details/8030654
例如只有一维的情况,那么y=2*x,那么斜率k=2,在梯度下降里面,x=x-n*k,k此时为梯度,即方向导数最大的方向,沿着该方向,x下降速度最快(最快到达local op点),n指的是步长。
主要思想:通过调整x=x-n*k,就影响了y的值趋于局部最优,也就得到了局部最优解。
参考博客:http://blog.csdn.net/abcjennifer/article/details/7691571
http://blog.csdn.net/abcjennifer/article/details/7758797
中N(L+1)表示在第L+1层有N(L+1)个结点