机器学习-线性回归(一)


640?wx_fmt=png

  Spark推荐系统,干货,心得 

  点击上方蓝字关注~

 



回归问题的学习等价于函数拟合:使用一条函数曲线使其很好的拟合已知函数且很好的预测未知数据

一元线性回归:

回归分析只涉及到两个变量的,称一元回归分析 

y = ax + b

案例

640?wx_fmt=png

目标

试图学到一条线性模型尽可能准确地预测新样本的输出值

分析

数据点可视化

640?wx_fmt=png

找出一条最合适的线来拟合所有的数据点

误差

真实值和预测值之间肯定存在差异,用ε表示

对于每个样本

640?wx_fmt=png

640?wx_fmt=png

中心极限定理:中心极限定理,是指概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量近似服从正态分布的条件。

 

在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布(忘记的可以百度百科)。

 

第i个样本实际的值等于预测的值加误差

假定所有的样本都是独立的,有上下的震荡,震荡任务是随机变量,足够多的随机变量叠加之后形成的分布,根据中心极限定理,它服从的就是正态分布,也就是高斯分布。

既然误差和均值为0,方差为平方的正态分布,那么我们可以把它的概率密度函数写出来

预测值与误差: 

640?wx_fmt=png

误差代入概率密度函数: 

640?wx_fmt=png

将1式代入2式:

640?wx_fmt=png

最大似然估计:给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参数,即“模型已定,参数未知”

 

知道这个分布是正态分布,但是不知道均值和方差;或是二项分布,但是不知道均值。最大似然估计(MLE, Maximum Likelihood Estimation)就可以用来估计模型的参数。MLE的目标是找出一组参数,使得模型产生出观测数据的概率最大。

 

所以 似然函数:

640?wx_fmt=png

对数似然:

640?wx_fmt=png

化简并计算w和b

640?wx_fmt=png

求解

将数据代入求得

w = 7.67

b = -10017.36

所以模型

y = 7.67x - 10017.36

640?wx_fmt=jpeg


推荐阅读:

学习人工智能你需要了解的基本概念

机器学习中一些基础的数学

640?wx_fmt=jpeg

长按识别二维码关注我们


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值