大数据(040)机器学习【线性回归】

一、一元一次线性回归

        如果用上述概念去理解线性回归与机器学习的关系还有点抽象,那么下面我们来举一个具体的例子来说明。

        历史上美国法社会见的次数很多,失败的次数也很多。基于历史样本,我们希望分析火箭中一个组成(O-Ring)温度对火箭发射成功与否的模型。

        因此,我们利用y=ax+b模型。将x置为温度,将y置为火箭发射失败次数。通过历史数据可以得到下图。

        由图中可以看出当O-Ring温度在70-80之间时候,火箭发射失败次数无限趋近于0。因此得出结论当O-Ring温度在70-80之间时发射火箭风险最小 。得出这个结论就要应用于生产,所以以后每次在发射火箭时候,都需要先对O-Ring进行预热处理,使其温度在最佳工作温度。

        当然,这只是一个很简单的例子。这个例子中O-Ring温度只是一个维度,其被称为一元线性回归。

二、多元一次线性回归

        而火箭发射应该考虑的维度十分之多。因此在真正分析火箭发射成功率时候要综合考量各个维度,最后得出模型也就应当是下方所示:

       上图公式使用代数表达就是下方公式所示。                                                              

                                                             Y=ε+X0*β0+X1*β0+X2*β0+····+Xn*βn

        其中X1到Xn为火箭各个维度。带入多组X0、X1、····Xn、Y。最终可求解到β0、β1、····、βn的值。如下图所示。

        我们发现上方线性回归公式很容易被打散。而我们之前学的MapReduce思想也是分分合合,其Map是分,Reduce就是和,因此线性回归使用分布式计算框架很容易实现,这也是线性回归在机器学习中这么重要的原意

 三、逻辑回归

        逻辑回归就是对我们上面所述的线性回归的Y求log,那么Y的范围也就规约在了0-1之间。这就与事件概率有关了。逻辑回归曲线图如下所示。

四、机器学习框架

        基于前几章所述,我们可以得到机器学习框架图。

 

五、最小二乘法

      

        如上图所示,其是我们在本章一元线性回归的例子,很明显我们想要的最理想的效果是我们的一元线性回归公式构成的线穿越所有的历史样本锚点。 这种情形下求解出的公式变量就是最优的。

        但是现实很骨感,没有那么完美的事情。那么问题来了,既然不存在穿越所有点的情形,那么什么时候我们认为这条线是最优的呢?下面我们来说说。

        从上图可看出红色的线为实际点与预期点的差距,我们对其平方之和开根号就是最小二乘法,如下图

        当求出ERROR最小时,我们认为当前模型是最优的。说到这,我们也就能理解机器学习为什么是迭代的了。因为我们在机器学习过程中会产生很多模型,对每个模型求其error,最终经过多次迭代,获得最优解。

        获取到最优解时error应该为0,但是现实中往往没有这种操作,我们需要给error设置一个阈值,当eroor满足这个阈值时候,我们就认为当前模型是最优解了。

六、相关系数

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值