处理数据的原因是为了让数据更能够符合模型的计算。
比如归一化。
回归问题使用 MSE :原因是用极大似然拟合正态分布。正态分布在这里有什么关系么?
cross entropy 也是通过极大似然推出来的?
loss function 极大似然 最大后验???
最大后验后面会加正则项而已
多个二分类和用 softmax ????
多分类的 cross entropy ????
前馈神经网络:沿着方向往前算。
为什么激活函数能够增加模型表现非线性特征的能力???
初始化问题????
解决局部最优的方法:momentum, rmsprop, adam
反向传播是用来计算各参数梯度的一个手段
DT 什么时候分裂
LR 的 loss function 是怎么得来的
LR 为什么每个特征都要进行 normal ???