2024年最全AI遮天传 ML-回归分析入门_回归分析已知x求y(2)，2024年最新大数据开发面试题高级-CSDN博客

本文链接：https://blog.csdn.net/2401_84167046/article/details/138830256

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

线性回归的目的即找到最能匹配(解释)数据的截距和斜率

有些变量间的线性关系是确定性的


x	1	2	3	4	5	6
y	3	5	7	9	11	13

$y=2x+1$

所以当 x=7时，我们预测为15.

然而通常情况下，变量间是近似的线性关系


x	1	2	3	4	5	6
y	3	2	8	8	11	13

我们要解决的问题就是如何得到一条直线能够最好地解释数据？

拟合数据

假设只有一个因变量和自变量，每个训练样例表示 (𝑥𝑖 , 𝑦𝑖)
用 $\widehat{y}_{i}$ 表示根据拟合直线和 x𝑖 对 𝑦𝑖 的预测值: $\widehat{y}_{i} = b_{1}+b_{2}x_{i}$
定义 $e_{i} = y_{i} - \widehat{y}_{i}$ 为误差项/残差

这里引入了一个新的定义：误差项，它是用样本的真实值减去样本的估计值。

我们的目标就是得到一条直线使得对于所有训练样例的误差项尽可能小

线性回归的基本假设

我们假设：

假设自变量与因变量间存在线性关系
数据点之间独立

输出结果y1,y2,y3…没有关系

自变量之间无共线性，相互独立

对于走路累不累：如果特征是伞和书包伞和书包这两个变量没什么关系

如果是天气伞书包则天气和伞我们认为并不是相互独立的

残差独立、等方差、符合正态分布

error独立、等方差(面对同一个问题，也是同分布的)

根据中心极限定理：设从均值为μ、方差为σ^{2;(有限)的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ}2/n 的正态分布。

三、损失函数(loss function)的定义

多种损失函数都是可行的，凭直觉就可以想到：

所有误差项的加和
所有误差项绝对值的加和

考虑到优化等问题，最常用的是基于误差平方和的损失函数

$\sum_{i=1}{n}e_{i}=\sum_{i=1}{n}(y_{i}-\widehat{y}_{i}){2}=\sum_{i=1}{n}(y_{i}-b_{1}-b_{2}x_{i})^{2}$

• 用误差平方和作为损失函数有很多优点

• 损失函数是严格的凸函数，有唯一解

• 求解过程简单且容易计算

• 同时也伴随着一些缺点

• 结果对数据中的“离群点”(outlier)非常敏感

• 解决方法：提前检测离群点并去除

• 损失函数对于超过和低于真实值的预测是等价的

• 但有些真实情况下二者带来的影响是不同的

我们需要求出合适的参数b1、b2使得误差平方和最小。

最小二乘法（Least Square, LS)

为了求解最优的截距和斜率，可以转化为一个针对损失函数的凸优化问题，称为最小二乘法：

我们分别对b1、b2求偏导：