===============Multiple Features===============
1.一些符号
2. Linear Regression with Multiple Variables的简洁表示
===============Gradient Descent for Multiple Variables===============
1.Gradient Descent for Multiple Variables的表示
2.左边为但参数的梯度递减单变量学习方法,右图new algorithm为多变量学习方法
========Gradient Descent in Practice I - Feature Scaling========
1. 不同的特征的均值大致相等时,梯度下降法运行越快。否则等高线成“瘦椭圆”形,
曲折蜿蜒向最小值寻找。很慢。。。feature scaling,即将所有feature归一化到[-1,1]区间内:
几乎“直线”寻找。
2.bad feature
3.归一化方法
============Gradient Descent in Practice II - Learning Rate==============
1.当下降到比较平坦时,说明收敛了。
2.当不收敛时,减少学习率会可能有效。但这样下降会很慢。
3.小测试
4.如何选取学习率:
测试α=0.001,收敛太慢(cost function下降太慢),测试0.01,过了?那就0.003……
========Features and Polynomial Regression==========
1.特征选取:面积更好
2.假设我们的输入为一座房子的size,输出为该house的price,对其进行多项式拟合:
有两个选择,二次方程或者三次方程。考虑到二次方程的话总会到最高点后随着size↑,
price↓,不合常理;因此选用三次方程进行拟合。
由于三个特征的变化区域相差太大,故一定要归一化。
3.或者有另一种拟合方程,如图粉红色曲线拟合所示:
4.小题目
============Normal Equation================
1.Normal Equation方法直接求解,不用迭代
2.对所有thetha求偏导,可算出COST函数极小值时的thetha值
3.Normal Equation方法直接求解公式
4.计算过程的描述,举得小例子X下标有点问题~
5.Normal Equation方法不需要Feature scaling
6.两种方法的对比
7.Normal Equation方法不适合Logistic回归
==============Normal Equation Noninvertibility===============
1.不可逆的两种情况及处理方法
FROM:(浙大小姑娘)
问答记录:
1)在学习参数的时候要做feature scale,但是在给出新的样本,想得到新的结果时,是不是不需要对这些新的样本进行feature scale了?
答:需要啊,训练的时候比如回归得到y = sign(a1x1+a2x2),x为特征,y为label,用到的scale如果和test的时候不同,肯定会出现问题。
2)比如训练集对某一特征的最大最小值为trainMax,trainMin,测试集对该特征的最大最小值为learnMax,learnMin,归一的时候是不是应
该用训练集的,对训练集的每个特征都记录下对应的trainMax,trainMin?
答:应该归依到同一个scale,可以用training set的normalization item