[ML]机器学习_多元线性回归

IAz-

已于 2023-12-28 09:11:25 修改

阅读量34

点赞数

分类专栏：机器学习文章标签：机器学习线性回归人工智能

于 2023-10-02 18:43:30 首次发布

本文链接：https://blog.csdn.net/iazzz/article/details/133494891

版权

机器学习专栏收录该内容

21 篇文章 0 订阅

订阅专栏

一、定义

二、向量化

1、Without Vectorization：

2、均值归一化(Mean Normalization)

3、Z-score Normalization

4、Min-Max Normalization

五、梯度下降收敛判断

1、学习曲线图：

2、自动收敛测试(Automatic Convergence Test)

六、学习率设定

七、特征工程(Feature Engineering)

八、多项式回归(Polynomial Regression)

一、定义

多元线性回归指的就是一个样本有多个特征的线性回归问题。

$eq?f_%7Bw%2Cb%7D%5Cleft%20%28%20x%20%5Cright%20%29%3Dw_%7B1%7Dx_%7B1%7D+w_%7B2%7Dx_%7B2%7D+w_%7B3%7Dx_%7B3%7D+...+w_%7Bn%7Dx_%7Bn%7D+b$

设定：

Parameters of Model:

Vector $eq?%5Cunderset%7Bw%7D%7B%5Crightarrow%7D%3D%5Bw_%7B1%7D%2Cw_%7B2%7D%2Cw_%7B3%7D%2C...%2Cw_%7Bn%7D%5D$

Vector $eq?%5Cunderset%7Bx%7D%7B%5Crightarrow%7D%3D%5Bx_%7B1%7D%2Cx_%7B2%7D%2Cx_%7B3%7D%2C...%2Cx_%7Bn%7D%5D$

b is a single number

简化：

Multiple Linear Regression

$eq?f_%7B%5Cunderset%7Bw%7D%7B%5Crightarrow%7D%2Cb%7D%5Cleft%20%28%20%5Cunderset%7Bx%7D%7B%5Crightarrow%7D%20%5Cright%20%29%3D%5Cunderset%7Bw%7D%7B%5Crightarrow%7D%5Ccdot%20%5Cunderset%7Bx%7D%7B%5Crightarrow%7D+b$

notes：

n为特征的数量

点积(dot product)

二、向量化

实施学习算法时，合理使用向量化即可以缩短代码，又可以提高运行效率。

Linear algebra：count from 1

code：count from 0

1、Without Vectorization：

$eq?f_%7B%5Cunderset%7Bw%7D%7B%5Crightarrow%7D%2Cb%7D%5Cleft%20%28%20%5Cunderset%7Bx%7D%7B%5Crightarrow%7D%20%5Cright%20%29%3D%5Csum_%7Bj%3D1%7D%5E%7Bn%7Dw_%7Bj%7Dx_%7Bj%7D+b$

f = 0
for j in range(0 , n):
    f = f + w[j] * x[j]
f = f + b

2、Vectorization：

import numpy as np

f = np.dot(w,x) + b

notes：

NumPy的dot函数使用并行硬件的能力使其比非向量化的for循环或者顺序计算的效率更高

三、用于多元线性回归的梯度下降法

正规方程(Normal Equation)

四、特征缩放

特征缩放

当有不同的特征且其之间的取值范围有很大差异时，该特征可能会造成梯度下降运行缓慢，应该重新缩放不同的特征，使其都具有可比较的取值范围。

数量级的差异将导致量级较大的属性占据主导地位
数量级的差异将导致迭代收敛速度减慢
依赖于样本距离的算法对于数据的数量级非常敏感

优点：

提升模型的精度：在机器学习算法的目标函数中使用的许多元素（例如支持向量机的 RBF 内核或线性模型的 l1 和 l2 正则化)，都是假设所有的特征都是零均值并且具有同一阶级上的方差。如果某个特征的方差比其他特征大几个数量级，那么它就会在学习算法中占据主导位置，导致学习器并不能像我们期望的那样，从其他特征中学习
提升收敛速度：对于线性模型来说，数据归一化后，寻找最优解的过程明显会变得平缓，更容易正确地收敛到最优解

1、按区间最大值缩放

按照特征取值的区间最大值，将特征元素除以其取值的最大值，缩小比例至最大为1。

eg：

$eq?300%5Cleq%20x_%7B1%7D%5Cleq%202000$

取最大值缩放：

$eq?x%7B_%7B1%2Cscaled%7D%7D%3D%5Cfrac%7Bx_%7B1%7D%7D%7B2000%7D$

缩放后：

$eq?0.15%5Cleq%20x_%7B1%2Cscaled%7D%5Cleq%201$

2、均值归一化(Mean Normalization)

从原始特征开始，重新缩放，使特征值都以0为中心，既有负值也有正值，通常介于-1和+1之间。

$eq?x%7B%7D%27%3D%5Cfrac%7Bx-mean%28x%29%7D%7B%5Cmax%28x%29-%5Cmin%28x%29%7D$

3、Z-score Normalization

通过减去均值然后除以标准差，将数据按比例缩放，使之落入一个小的特定区间，处理后的数据均值为0，标准差为1。

$eq?x%7B%7D%27%3D%5Cfrac%7Bx-%5Cmu%7D%7B%5Csigma%20%7D$

notes：

$eq?%5Cmu$ 为平均值

$eq?%5Csigma$ 为标准差(Standard Deviation)

4、Min-Max Normalization

将原始数据线性变换到用户指定的最大-最小值之间，处理后的数据会被压缩到 [0,1] 区间上。

$eq?x%7B%7D%27%3D%5Cfrac%7Bx-%5Cmin%28x%29%7D%7B%5Cmax%28x%29-%5Cmin%28x%29%7D$

五、梯度下降收敛判断

1、学习曲线图：

notes：

        x轴是梯度下降算法的迭代次数，y轴是成本函数J的值
        梯度下降算法的目的是：找到一组w和b，让成本函数J最小
        学习曲线图可以帮助我们查看成本函数J如何变化。如果梯度下降算法工作正常，那么成本函数J在每次迭代后都会减少。如果成本函数J在一次迭代后增加，那意味着学习率α可能选的太大，或代码有bug
        学习曲线图还可以帮助我们判断，梯度下降算法是否收敛。当学习曲线平坦时，梯度下降算法收敛

2、自动收敛测试(Automatic Convergence Test)

notes：

        ε表示一个很小的数，如0.001
        当一次迭代后，成本函数J的减少幅度小于ε，那么曲线很可能位于平坦部分，即梯度下降算法收敛，即找到一组w和b使成本函数J最小，或接近最小
        因为找到这样一个正确的ε比较难，所以还是推荐采用画学习曲线图的方法，来判断梯度下降算法是否收敛，以及在多少次迭代后训练模型可以完成训练

六、学习率设定

当关于迭代次数的学习曲线图，出现波浪型或向上递增型，表示梯度下降算法出错。该情况可由，学习率α过大，或代码有bug导致。

选择一个非常非常小的学习率α，来查看学习曲线是否还是有误，即在某次迭代后增加，是否出现波浪型或向上递增型。若学习曲线正常，即保持递减，表示之前的学习率α过大。若学习曲线依旧有误，则表示代码有bug。
将学习率α设为非常非常小的数，仅用于调试，并不表示此时的α为梯度下降算法的最有效的学习率α。因为当学习率太小时，梯度下降算法可能会需要迭代很多次才能收敛。

学习率调整策略总体上可以分为两种：人工调整和策略调整。

人工调整学习率一般是根据我们的经验值进行尝试，通常我们会尝试性的将初始学习率设为：0.1，0.01，0.001，0.0001等来观察网络初始阶段epoch的loss情况。

策略调整学习率包括固定策略的学习率衰减和自适应学习率衰减，由于学习率如果连续衰减，不同的训练数据就会有不同的学习率。当学习率衰减时，在相似的训练数据下参数更新的速度也会放慢，就相当于减小了训练数据对模型训练结果的影响。为了使训练数据集中的所有数据对模型训练有相等的作用，通常是以epoch为单位衰减学习率。

学习率与学习率调度