欢迎关注哈希大数据微信公众号【哈希大数据】
python实现多元线性回归算法(lr)
想必大家在很早之前就接触过函数的概念,即寻找自变量和因变量之间的对应关系,一元一次、多元一次、一元二次等等,表示的就是变量间具有线性、非线性,相关关系或无关关系等。
同样的在机器学习中,一个重要而且很常见的问题就是学习特征变量(自变量)与响应变量(因变量)之间的函数关系,进而对新出现的变量进行结果预测。
这种寻找连续变量与目标结果间关系的方式称之为回归,与上节分享的KNN实现的离散变量的分类,均属于机器学习有监督算法的核心功能,是实现预测的重要方式。
因此本节我们将重点介绍线性回归(Linear Regression)
01 线性回归和最小二乘法介绍
线性回归理论:
1.假设自变量X和因变量Y具有线性关系,要想预测新的y值,需要使用历史的Y与X训练数据,通过线性方程建立机器学习模型。
2.如果变量X只有一个为简单线性回归,有多个为多元线性回归。
3.机器学习模型假设为:Y=aX+b,b是噪音项,且服从独立同分布(IID)(概率统计基本理论,表明e在任何时刻的取值都为随机变量,不会影响y的预测结果)。
最小二乘法理论:
1.为了使预测更加准确,即机器学习得出的预测参数a和b要与实际情况尽可能相一致,因此在训练模型时要计算预测结果与实际结果的误差值大小:e=yi−(axi+b),来判断模型是否精确,进而动态调整模型参数。
2.为使该误差最小将采用数学优化技术-最小二乘法,即通过最小化误差平方和