2016.12.14
今日为了完成老师的任务我复习了一下人工神经网络。发现在机器学习(Tom.M)里面的这本书提到了一个机器学习(周志华)没有提到的问题,就是周志华那本书里面所使用的BP算法是基于SGD(随机梯度下降)推导的,但实际上还有一种BP算法是基于BGD(批量梯度下降)推导的,查阅了一些资料都没有讲清楚二者的本质区别。我仔细研究之后,发现二者本质上的不同在于代价函数J_theta的不同。
BGD中采用的代价函数是SGD对于所有训练集成员的平均值,这就是网上所谓的BGD一次迭代考虑所有样例,SGD一次迭代考虑单个样例