Relu:从生物神经方面讲述relu的来源
最小二乘法(Least squares):中的二乘是平方的意思
Logisitic回归:虽然名为回归,但事实上用于二分类问题
Softmax回归、以及英文版本的softmax回归可交互解释:Logistic回归在多分类问题上的扩展
最大似然估计:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
最大后验估计:MAP与MLE最大区别是MAP中加入了模型参数本身的概率分布,或者说。MLE中认为模型参数本身的概率的是均匀的,即该概率为一个固定值。可配合知乎的答案看。
momentum冲量:
v = - dx * lr + v * momemtum
当本次梯度下降- dx * l
r的方向与上次更新量v
的方向相同时,上次的更新量能够对本次的搜索起到一个正向加速的作用,否则反之。正则化项-regularization:类似于惩罚项,避免overfitting 。To find the right trade-off between the fit to the training data and the “generality” of the solution that is found.
l0 norm l1 norm l2 norm infinity norm:
- L0-范式: 向量里非零元素的个数
- L1-范式:向量中元素的绝对值之和
- L2-范式:向量元素平方和的平方根
- L-无限范式:向量中绝对值最大的元素
Early stopping:每对所有training set遍历一次以后,用validation set计算accuracy,“判断accuracy不再提高”,则early stopping。具体如何判断取决于epoch的次数n,”no-improvement-in-n”中的n。
Back Propagation:通过代入实际运算来讲解,简单易懂,非常推荐
CNN CS231N:讲解CNN似乎没有比这更好的tutorial了。
自动编码器 AutoEnconder1,2:两者结合看,然后再看theano版本的解释
未完待续……