既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
线性回归的目的即找到最能匹配(解释)数据的截距和斜率
- 有些变量间的线性关系是确定性的
x | 1 | 2 | 3 | 4 | 5 | 6 |
y | 3 | 5 | 7 | 9 | 11 | 13 |
所以当 x=7时,我们预测为15.
- 然而通常情况下,变量间是近似的线性关系
x | 1 | 2 | 3 | 4 | 5 | 6 |
y | 3 | 2 | 8 | 8 | 11 | 13 |
我们要解决的问题就是如何得到一条直线能够最好地解释数据?
拟合数据
- 假设只有一个因变量和自变量,每个训练样例表示 (𝑥𝑖 , 𝑦𝑖)
- 用 表示根据拟合直线和 x𝑖 对 𝑦𝑖 的预测值:
- 定义 为误差项/残差
这里引入了一个新的定义:误差项,它是用样本的真实值减去样本的估计值。
我们的目标就是得到一条直线使得对于所有训练样例的误差项尽可能小
线性回归的基本假设
我们假设:
- 假设自变量与因变量间存在线性关系
- 数据点之间独立
输出结果y1,y2,y3…没有关系
- 自变量之间无共线性,相互独立
对于走路累不累:如果特征是 伞 和 书包 伞和书包这两个变量没什么关系
如果是 天气 伞 书包 则 天气 和 伞 我们认为并不是相互独立的
- 残差独立、等方差、符合正态分布
error独立、等方差(面对同一个问题,也是同分布的)
根据中心极限定理:设从均值为μ、方差为σ2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n 的正态分布。
三、损失函数(loss function)的定义
多种损失函数都是可行的,凭直觉就可以想到:
- 所有误差项的加和
- 所有误差项绝对值的加和
考虑到优化等问题,最常用的是基于误差平方和的损失函数
• 用误差平方和作为损失函数有很多优点
• 损失函数是严格的凸函数,有唯一解
• 求解过程简单且容易计算
• 同时也伴随着一些缺点
• 结果对数据中的“离群点”(outlier)非常敏感
• 解决方法:提前检测离群点并去除
• 损失函数对于超过和低于真实值的预测是等价的
• 但有些真实情况下二者带来的影响是不同的
我们需要求出合适的参数b1、b2使得误差平方和最小。
最小二乘法(Least Square, LS)
为了求解最优的截距和斜率,可以转化为一个针对损失函数的 凸优化问题,称为最小二乘法:
我们分别对b1、b2求偏导:
这就是我们文章最开始回忆的线性回归方程,我们使用时当然不用去求偏导了,直接用。
梯度下降法(Gradient Descent, GD)
除了最小二乘法,还可以用基于梯度的方法迭代更新截距和斜率:
- 可以随机先初始化 𝑏1, 𝑏2
- 重复:
有了初始化的一组b1、b2,我们就可以得到对应比如样本1的误差项error1,基于误差项去更新b,b=b-a,其中a是系数的更新(和误差有关的函数,比如0.1*error),这样就有了新的b1、b2,用样本2的误差项error2求出a不断更新迭代… 直到收敛。
四、多元线性回归(Multiple Linear Regression)
当因变量有多个时,我们可以用矩阵方式表达
基于以上矩阵表示,可以写为
此时:
注:
- 矩阵X的第一列都是1,其与β相乘表示截距。
- 损失函数结果还是数字
- 通过最小二乘法得到求解β的公式:
例如:
记录了 25 个家庭每年在快销品和日常服务
- 总开销(𝑌)
- 每年固定收入( 𝑋2)、持有的流动资产( 𝑋3)
可以构建如下线性回归模型:
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
-4fOtDfIC-1715628937504)]
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新