1. What does grad mean?
找到极小值解
#learning rate=0.001
#凸函数可以找到唯一最优解,得到极小值解
#ResNet-56可以将函数平滑化,然后很容易就得到最小值了,优化的速度变快,优化效果变好
#影响因素:
#鞍点
#定义:对于2维图像,在一个维度上取得极大值,在一个维度上取得极小值;对于多维图像,取得极值的情况不确定
#initialization:
#初始状态不同,会造成极小值是局部极小值
#learning rate:
#learning rate不能设置的过大,应该设置的小一点,0.01,0.001
#learning rate会影响到结果的精度