大数据篇——回归、拟合

回归

高尔顿的一篇谈论人的身高的文章,提出了“回归”这个名词:“那些高个子的后代的身高,有种回归到大众身高的趋势。

我的理解是:所谓回归,指的是数据之间的某种联系,而我们现有的几种回归则为我们提供了一种寻找数据联系的手段,我们根据现有的的一堆数据去找出某条符合我们数据(基于某种条件)的函数,而根据这条函数我们大致可以根据新数据的某些初始条件去推测该数据未来的可能性

所以回归问题是指,给定一个新的模式,根据训练集推断它所对应的输出值(实数)是多少,是一种定量输出,也叫连续变量预测。比如预测明天的气温是多少度,这是一个回归任务

线性回归

利用大量的样本D,根据建立的回归模型,学习到由x到y的映射f ,利用该映射关系对未知的数据进行预估

单变量情况下,回归呈现的是一条线性的关系函数

y=ax+b

多变量情况下则开始演变为一个在多位空间下的面状关系函数

h_{\theta }\left ( x \right )=\theta _{0}+\theta _{1}x_{1}+....+\theta _{n}x_{n}=\sum_{i=0}^{n}\theta _{i}x_{i} =\theta ^{T}X

 

拟合

对于拟合的理解则是找到一种近似的函数关系,来对这些组变量的联系进行某种描述,进而获得某种解释,这与回归有着很大程度上的相似,但与回归不同的是,拟合是为了对数据的预测进行分类,分类问题是指,给定一个新的模式,根据训练集推断它所对应的类别(如:+1,-1),是一种定性输出,也叫离散变量预测,比如预测明天是阴、晴还是雨,就是一个分类任务

 

损失函数

J(\theta )=(\sum_{i=1}^{m}\left (h _{\theta } \right\left (x ^{\left ( i \right )}-y ^{\left ( i \right )}\right )^{2} ))/2m

因为有m个样本,所以要平均,分母的2是为了求导方便

x^{(i)}y^{(i)}为第i次的输入数据和输出数据

梯度下降

求极值的数学思想,对公式求导=0即可得到极值,但是工业上计算量很大,公式很复杂,所以从计算机的角度来讲,求极值是利用梯度下降法。

① 初始位置选取很重要

② 负梯度方向更新,二维情况下,函数变换最快的方向是斜率方向,多维情况下就成为梯度,梯度表示函数值增大的最快的方向,所以要在负梯度方向上进行迭代。

\theta的更新公式如上图,每个参数\theta都是分别更新的
 

 

参考:https://blog.csdn.net/laputa_ml/article/details/80072570

https://blog.csdn.net/jiaoyangwm/article/details/81139362

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

原来是肖某人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值