1)关于梯度下降
学习速率α太大甚至会导致发散;(梯度会随着迭代逐渐增大以致发散)
学习速率α太小学习比较慢,但最终会收敛;
最后强调,只要α足够小,一定会收敛,且不必到后面人工减小α的值!(梯度会随着迭代逐渐减小)
2)矩阵讲了一下,但非常简单
Addition and Scalar Multiplication
Matrix Vector Multiplication
Matrix Matrix Multiplication
Matrix Multiplication Properties(不满足交换律、满足结合律、A*I=I*A=A、)
Inverse and Transpose
3)梯度下降的小技巧
a)feature scaling:加快收敛
b)learning rate:smaller or bigger
c)feature selection
4)正规方程
正规方程由于是代数运算,所以feature scaling可以省略。