数据挖掘算法(四)--线性回归

1、简单线性回归

简单线性回归是一个线性回归模型。一个独立变量和一个因变量,目的是找到的因变量和自变量之间的线性函数,尽可能准确地,预测因变量的值作为自变量的函数。这是常见的做法是:利用最小二乘方法使得残差(数据集的点和拟合线之间的垂直距离)最小化。找到残差最小时的拟合曲线即为我们要找的结果。
假设拟合曲线为:

y=β0+β1x

这样我们的目标就是找到斜率 β1 y 轴截距β0,换成数学表达式就是找到 β0 β1 使得下面的表达式最小:
mini=1n{yi(β0+β1xi)}2

下面是求解过程:
=i=1n{yi(β0+β1xi)}2

=i=1n{yiβ1xiβ0}2

y=yiβ1xi 可以将上式简化为
=i=1n{yβ0}2

要使得上式最小化,只有 β0 等于 y 的平均值的时候才能使得上式最小。
β0=yin=(yiβ1xi)n=y¯β1x¯

β0 代入原始式子得到
=i=1n{yiβ1xiy¯+β1x¯}2

=i=1n{yiy¯(xix¯)β1}2

yi^=yiy¯ xi^=xix¯
=i=1n{yi^xi^β1}2

同上面 β0 的道理, xi^β1 等于 yi^ 的均值时上式最小,这样的得到 β1 的解:
β1=yi^xi^xi^2=(yiy¯)(xix¯)(xix¯)2

β1=(yiy¯)(xix¯)/(n1)(xix¯)2/(n1)

β1=cov(y,x)cov(x,x)=cov(y,x)var(x)

2、线性回归

给定一个数据集 {yi,xi1,...,xip}ni=1 ,线性回归模型主要是为了找到变量 yi 和向量 X <script type="math/tex" id="MathJax-Element-1946">X</script>的线性关系。
This relationship is modeled through a disturbance term or error variable εi — an unobserved random variable that adds noise to the linear relationship between the dependent variable and regressors. Thus the model takes the form

待续。。。

参考资料:
1、https://en.wikipedia.org/wiki/Simple_linear_regression
2、https://en.wikipedia.org/wiki/Linear_regression

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值