线性回归
本博客为博主查阅大量资料后整理原创,虽水仍不易,如需转载,请附上本文链接https://blog.csdn.net/JasonLeeeeeeeeee/article/details/81019399,谢谢
本文若有不足之处可以交流沟通,互相学习
1. 介绍
在吴恩达大神的机器学习视频中,线性回归是第一块讲的内容,是以房价为例进行讲解。房价跟面积、地理位置等因素相关,具体呈现怎样的相关性,每个因素占多大的比重,这就是线性回归的主要功能了。我们在知道答案和各个影响因素的前提下,来训练学习每个因素在影响最终结果的比重,即每个因素之前的系数。在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合(自变量都是一次方)。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。
优点:结果易于理解,计算上不复杂。
缺点:对非线性数据拟合不好。
适用数据类型:数值型和标称型数据。
2. 模型推导
假设:
1. 输入的X和Y满足线性关系,通过训练可以建立机器学习模型,即输入的Y和X之间满足方程 Y=θTX+e Y = θ T X + e 其中 e e 是误差项,噪音项;
2. 最终训练出来的线性模型为
;
3. 使用表示数据组数,使用表示数据的维数;
4. 训练样本的数据量很大的时候,根据中心极限定律可以得到 ∑e ∑ e 满足 (u,σ2) ( u , σ 2 ) 高斯分布的,由于方程有截距项 ,故满足 (0,σ2) ( 0 , σ 2 ) 的高斯分布,即 hθ(x)−yi∽N(0,σ2)i=1 to m h θ ( x ) − y i ∽ N ( 0 , σ 2 ) i = 1 t o m .
我们可以得到似然函数为:
两边取对数可得: