第1.1章：线性回归（Linear Regression）_算法原理推导

最新推荐文章于 2022-02-26 10:30:00 发布

popo-shuyaosong

最新推荐文章于 2022-02-26 10:30:00 发布

阅读量491

点赞数

分类专栏：机器学习文章标签：线性回归算法原理推导假设函数极大似然估计似然函数目标函数（损失函数、代价函数）

本文链接：https://blog.csdn.net/weixin_41577426/article/details/95315493

版权

简述一下线性回归流程：首先可以进行数据的预处理，包括但不限于：缺失值处理、线性相关的特征值处理、误差较大的脏数据处理。然后搭建一个线性回归模型，运用梯度下降或者正规方程法可以求出参数，这样模型就确定了。之后再用一些检测方法，评估模型是否合理并进行针对性的优化。

文中 $\hat{y}$ 为预测值， $y^{(i)}$ 为实际值， $x_{i}$ 表示第 $i$ 个变量（特征）， $x^{(i)}$ 表示第 $i$ 组数据（样本），同理 $x_{n}^{(m)}$ 表示第m个样本的第n个特征

来源

Lecture_01

本章视频

06_线性回归算法原理推导、07_线性回归参数的求解

一、线性回归算法原理推导

1.假设函数的推导

关于回归问题与分类问题

举一个银行贷款的例子：给定几组数据（年龄，工资，贷款额度）做为样本，当再次给一组数据（年龄，工资）时，预测出贷款额度则是一个回归问题（推测出一个连续值的结果），预测出能不能得到贷款则是一个分类问题（推测出离散的输出值）。

算法的选择

优先考虑简单的算法，可以根据结果再进行优化，选择别的算法试试看。简单的算法有一个好处就是参数比较少，做可视化和分析的时候更容易。比如线性回归的参数 $\theta$ 代表的就是各个特征的权重，就很直观，而越复杂的算法解释起来越不方便，也不知道具体的参数代表什么意思。

关于假设函数（预测函数）

假设 $x_{1}$ 是年龄， $x_{2}$ 是工资， $\theta_{0}$ 是偏置参数， $\theta_{1}$ 是年龄参数， $\theta_{2}$ 是工资参数。
我可以根据已知的样本拟合一个平面： $h_{\theta}(x)=\hat{y}=\theta_{0}+\theta_{1} x_{1}+\theta_{2} x_{2}$ 用来近似的表示对于一个组合（年龄、工资）相对应的贷款金额（注：大多数情况近似值与真实值并不一样）。我们的目的就是确定 $\theta_{i}$ 的值，这样当给定一组新的 $x_{i}$ 就可以预测出想要的结果。
注：之所以这样来定义假设函数，是为了使得函数值 $h_{\theta}(x)$ 尽可能的接近真实值，以达到预测的效果。
进一步，我们可以令 $x_{0}$ =1，将假设函数整合成： $h_{\theta}(x)=\sum_{i=0}^{m} \theta_{i} x_{i}=\theta^{T} X$
其中 $\theta^{T}=\left(\begin{array}{ccc}{\theta_{0}} & {\dots} & {\theta_{m}}\end{array}\right)$ ， $X=\left(\begin{array}{lll}{x_{0}} & {\dots} & {x_{m}}\end{array}\right)^{T}$ 。将假设函数表示成矩阵相乘的形式，目的则是便于计算。

2.误差项分析

误差

引入误差： $y^{(i)}=\theta^{T} x^{(i)}+\varepsilon^{(i)} （01）$
重要的话：误差 $\boldsymbol{\varepsilon}^{(i)}$ 是独立的并且具有相同的分布，并且服从均值为0，方差为 $\sigma^{2}$ 的高斯分布。
注：我们是假设误差服从的高斯分布，并且实际得出的结果确实是可利用的，即假设可行

在统计学中，高斯－马尔可夫定理陈述的是：在线性回归模型中，如果误差满足零均值、同方差且互不相关，则回归系数的最佳线性无偏估计(BLUE, Best Linear unbiased estimator)就是普通最小二乘法估计。

误差 $\boldsymbol{\varepsilon}^{(i)}$ 为每组样本的真实值 $y^{(i)}$ 与预测值 $h_{\theta}(x)$ 之间的差距
误差项

最低0.47元/天解锁文章

popo-shuyaosong

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第1.1章：线性回归（Linear Regression）_算法原理推导

第1章：线性回归来源本章视频视频06：线性回归算法原理推导1、概述关于回归问题与分类问题关于假设函数（预测函数）2、误差项分析误差高斯分布（正态分布）3、似然函数求解来源Lecture_01本章视频06、07视频06：线性回归算法原理推导1、概述关于回归问题与分类问题举一个银行贷款的例子：给定几组数据（年龄，工资，贷款额度）做为样本，当再次给一组数据（年龄，工资）时，预测出贷款额度...
复制链接

扫一扫

专栏目录