关键字:等值线,特征缩放,归一化,多项式线性回归
1.定义:
1.1 基函数为特征
顾名思义,一般情况下,多变量线性回归就是变量不止一个。因为是线性的,所以可以表示为
其中的ai是有实际意义的,表示当Xi变化一个单位后,对应的Y的变化
这里x0为1
将x和seta都写成列向量的形式,都是n+1维列向量,就是有n+1个特征,数据集有m个数据
2.利用梯度下降法求解多变量线性回归
就是:这里假设有m个数据集
1.2 基函数为特征的组合
此时仍然是线性模型,只是基函数发生变化
2、特征缩放
2.1 目的
当数据集里面的每个数据的n个维度数值上差太多是,就会使得梯度下降法很慢,等值线很扁
像这样:
比如吧seta1以千为单位,但是seta2以0.1为单位,两个不统一
2.2步骤
先进行特征缩放,然后发现等值线差不多是个圆,这是理想的情况
通常限制的范围是[-1,1],当然,大一些或者小一些都可以,但是区间范围也不能太小了或者太大
3.均值归一化
相当于把正态分布标准化
假设数据集的m个数据,n维特征中的其中一个特征xi,m个数据的这个特征分别为xi1,xi2,...,xin,他们的均值为,标准差为,归一化就是
然后的值就会在[-1,1]之间了
4.多项式线性回归
此时均值归一化就无比重要
一般写法:
这里的是一个实数,可以为整数,也可以为分数
这是观看吴恩达网易云机器学习系列做的笔记
图片来源于视频课件