Stanford机器学习---第三讲. 多变量线性回归 Linear Regression with Multiple Variables

===============Multiple Features===============

1.一些符号

2. Linear Regression with Multiple Variables的简洁表示

===============Gradient Descent for Multiple Variables===============

1.Gradient Descent for Multiple Variables的表示

 

2.左边为但参数的梯度递减单变量学习方法,右图new algorithm为多变量学习方法

 

========Gradient Descent in Practice I - Feature Scaling========

1. 不同的特征的均值大致相等时,梯度下降法运行越快。否则等高线成“瘦椭圆”形,

曲折蜿蜒向最小值寻找。很慢。。。feature scaling,即将所有feature归一化到[-1,1]区间内:

几乎“直线”寻找。

2.bad feature

 

3.归一化方法

============Gradient Descent in Practice II - Learning Rate==============

1.当下降到比较平坦时,说明收敛了。

 

2.当不收敛时,减少学习率会可能有效。但这样下降会很慢。

 

3.小测试

 

 

4.如何选取学习率:

测试α=0.001,收敛太慢(cost function下降太慢),测试0.01,过了?那就0.003……

========Features and Polynomial Regression==========

1.特征选取:面积更好

 

2.假设我们的输入为一座房子的size,输出为该house的price,对其进行多项式拟合:

有两个选择,二次方程或者三次方程。考虑到二次方程的话总会到最高点后随着size↑,

price↓,不合常理;因此选用三次方程进行拟合。

 

由于三个特征的变化区域相差太大,故一定要归一化。

 

3.或者有另一种拟合方程,如图粉红色曲线拟合所示:

 

4.小题目

============Normal Equation================

1.Normal Equation方法直接求解,不用迭代

2.对所有thetha求偏导,可算出COST函数极小值时的thetha值

3.Normal Equation方法直接求解公式

4.计算过程的描述,举得小例子X下标有点问题~

5.Normal Equation方法不需要Feature scaling

6.两种方法的对比

7.Normal Equation方法不适合Logistic回归

 

==============Normal Equation Noninvertibility===============

1.不可逆的两种情况及处理方法

 

FROM:(浙大小姑娘)

问答记录:

1)在学习参数的时候要做feature scale,但是在给出新的样本,想得到新的结果时,是不是不需要对这些新的样本进行feature scale了?

答:需要啊,训练的时候比如回归得到y = sign(a1x1+a2x2),x为特征,y为label,用到的scale如果和test的时候不同,肯定会出现问题。

 

2)比如训练集对某一特征的最大最小值为trainMax,trainMin,测试集对该特征的最大最小值为learnMax,learnMin,归一的时候是不是应

该用训练集的,对训练集的每个特征都记录下对应的trainMax,trainMin?

答:应该归依到同一个scale,可以用training set的normalization item

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值