多变量线性回归
多元线性回归 multiple linear regression
基本定义
多元线性回归(multiple linear regression,不是multivariable……)形式,
另一种形式
矢量化表示,认识点乘(np.dot())。
多元梯度下降
多元线性回归梯度下降,使用矢量化表示。
梯度下降使用最小二乘法,即最小化均方误差以建立模型。
梯度下降最优化代价函数。
特征缩放 Features Scaling
引入:加快梯度下降运行速度。
- 特征缩放之——普通形式。变量间取值范围差异特别大时,特征值缩放能使得梯度下降找到一条直接通向全局最小值的路径。
- 特征缩放之——**均值归一化 ** (Mean Normalization)。将数值范围缩放到 [-1, 1] 区间里,且数据的均值变为0。
- 特征缩放之——Z值归一化 / 标准化 (Z-score normalization / Standardization)。将数值缩放到0附近,且数据的分布变为均值为0,标准差为1的标准正态分布(先减去均值来对特征进行 中心化 mean centering 处理,再除以标准差进行缩放)
补充
- 特征缩放的几种方法:
- 归一化和标准化区别:
> - 特征缩放的优点:提高收敛速度,提高预测准确性。
- 进行特征缩放的注意事项:
需要先把数据拆分成训练集与验证集,在训练集上计算出需要的数值(如均值和标准值),对训练集数据做标准化/归一化处理(不要在整个数据集上做标准化/归一化处理,因为这样会将验证集的信息带入到训练集中,这是一个非常容易犯的错误),然后再用之前计算出的数据(如均值和标准值)对验证集数据做相同的标准化/归一化处理。
梯度下降收敛判断、学习率选择
如何判断梯度下降是否收敛
1、建立学习曲线(Learning curve)。根据随着迭代次数增加,代价函数是否降低判断。
2、使用自动收敛测试。根据代价函数(或
w
,
b
w, b
w,b)的下降幅度判断。
学习率α选择 :利用学习曲线判断
学习曲线呈现上升趋势,则学习率应该取小点
总之,学习率太小,收敛速度慢;学习率太高,可能不收敛。可以使用一系列学习率进行梯度下降,选择收敛速度合适的最大学习率
特征工程 Feature Engineering
引入:选择合适的特征往往是使算法运行良好的关键步骤,那么如何选择特征呢?
多项式回归 Polynomial regression
引入:结合多元线性回归和特征工程来创造新的多项式回归算法,实现非线性函数的拟合。
非线性回归中,特征缩放显得格外重要。如下图。
正规方程 normal equation
区别于梯度下降的直接解法
正规方程求解。
正规方程与梯度下降 比较
矩阵不可逆处理
导致原因:特征冗余、特征数量太多
解决方案:删除特征,正则化(regularization)