1、梯度下降算法步骤:
a. 用随机值初始化权重和偏差
b.把输入传入神经网络得到输出值
c.计算预测值和真实值之间的误差
d.对每一个产生误差的神经元调整相应的权重值,以减小误差
e.重复迭代,直到得到最佳权重
2、把数据传入神经网络之前需要做一系列数据预处理(旋转、平移、缩放)工作,神经网络本身不能完成这些变换
3、Bagging操作和神经网络中的Dropout类似,Bagging(装袋方法,和boosting提升方法并列),是一种根据均匀概率分布从数据中重复抽样(有放回)的技术
4、在训练神经网络的时候,损失函数loss在最初的几个epochs时没有下降,可能是因为:学习率太低、正则参数太高或者陷入了局部最优解
5、对于很多高维非凸函数而言,局部极小值(以及极大值)事实上都远少于另一类梯度为零的点:鞍点。鞍点附近的某些点比鞍点有更大的代价,而其他点则有更小的代价。
6、PCA(主成分分析)提取的是数据分布方差比较大的方向,也起到降维的作用。而神经网络中的隐藏藏如果能实现降维的话是提取了有预测能力的特征。