线性回归

最新推荐文章于 2024-06-06 23:15:00 发布

Lucia_0103

最新推荐文章于 2024-06-06 23:15:00 发布

阅读量187

点赞数

分类专栏： Python数据分析和机器学习实战

本文链接：https://blog.csdn.net/Lucia_0103/article/details/88622826

版权

Python数据分析和机器学习实战专栏收录该内容

5 篇文章 0 订阅

订阅专栏

概述

1、回归与分类的区别：

回归：在一个区间中求解具体值
分类：得到一个分类值

2、线性回归问题：寻找一条最适合的线最好地拟合数据

3、整合成矩阵形式：高效
$\ {h_\theta}(x) = {\theta ^T}X$

将X扩增一列全1向量，与 ${\theta_0}$ 相乘得到偏置量

推导目标函数

1、误差( $\varepsilon$ )：真实值与预测值的差异

每个样本 $x_i$ 的误差 $\varepsilon^{(i)}$ 是独立同分布，且服从均值为0，方差为 $\theta^2$ 的高斯分布

2、似然函数的推导

预测值： $\ y^{(i)}={\theta^T}{x^{(i)}}+\varepsilon^{(i)}$ （1）
$\varepsilon^{(i)}$ 的概率分布： $\ p(\varepsilon^{(i)})=\frac{1}{{\sqrt {2\pi } \sigma }}exp[-\frac{(\varepsilon^{(i)})^2}{2\sigma^2}]$ （2）
将（2）代入（1），得：
$\ p(y^{(i)}|x^{(i)};\theta)=\frac{1}{{\sqrt {2\pi } \sigma }}exp[-\frac{(y^{(i)}-{\theta^T}{x^{(i)}})^2}{2\sigma^2}]$
似然函数：使预测值恰好为真实值的概率尽可能大的参数估计
$\ L(\theta)=\prod\limits_{i = 1}^m p(y^{(i)}|x^{(i)};\theta)$
对数似然函数：将乘法转换为加法，简化计算
$\ logL(\theta)=mlog(\frac{1}{{\sqrt {2\pi } \sigma }})-\frac{1}{{{\sigma ^2}}} \cdot \frac{1}{2}\sum\limits_{i = 1}^m {(y^{(i)}-{\theta^T}{x^{(i)}})^2}$
- 目标：使 $\ L(\theta)$ 最大，即 $\ logL(\theta)$ 最大
- $\ mlog(\frac{1}{{\sqrt {2\pi } \sigma }})$ 是大于0的常数， $\ \frac{1}{2}\sum\limits_{i = 1}^m {(y^{(i)}-{\theta^T}{x^{(i)}})^2}$ 也大于0。因此 $\ \frac{1}{2}\sum\limits_{i = 1}^m {(y^{(i)}-{\theta^T}{x^{(i)}})^2}$ 越小，则 $\ logL(\theta)$ 越大
目标函数：
$\ J(\theta)=\frac{1}{2}\sum\limits_{i = 1}^m {(y^{(i)}-{\theta^T}{x^{(i)}})^2}$
- 最小二乘形式
- 目标：预测值是真实值的可能性越大， $\ L(\theta)$ 越大， $J(\theta)$ 越小

求解参数值

1、对目标函数 $J(\theta)=\frac{1}{2}(X\theta-y)^T(X\theta-y)$ 求偏导：
$\ {\nabla _\theta }J(\theta)={\nabla _\theta }[\frac{1}{2}(X\theta-y)^T(X\theta-y)]=X^TX\theta-X^Ty$
2、求 $J(\theta)$ 的极小值：

令 $\ {\nabla _\theta }J(\theta)=0$ ，求解 $\theta$
$\theta=(X^TX)^{-1}X^Ty$

3、很多情况下， $\theta$ 无法直接求解，线性回归是特例

评估方法

最常用的评估项：
$\ R^2=1-\frac{\sum\limits_{i = 1}^m {(\mathop {{y_i}}\limits^ \wedge - {y_i})^2 }}{\sum\limits_{i = 1}^m {({y_i} - \overline {{y_i}} )^2 }}$

$\sum\limits_{i = 1}^m {(\mathop {{y_i}}\limits^ \wedge - {y_i})^2 }$ ：残差平方和
$\sum\limits_{i = 1}^m {({y_i} - \overline {{y_i}} )^2 }$ ：类似方差项
$R^2$ 越接近1，模型拟合得越好

Lucia_0103

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
线性回归

概述1、回归与分类的区别：回归：在一个区间中求解具体值分类：得到一个分类值2、线性回归问题：寻找一条最适合的线最好地拟合数据3、整合成矩阵形式：高效&nbsp;hθ(x)=θTX\ {h_\theta}(x) = {\theta ^T}X&nbsp;hθ(x)=θTX将X扩增一列全1向量，与θ0{\theta_0}θ0相乘得到偏置量推导目标函数1、误差(ε\var...
复制链接

扫一扫