西瓜书上的线性回归

最新推荐文章于 2024-07-08 22:12:26 发布

kyzz2

最新推荐文章于 2024-07-08 22:12:26 发布

阅读量31

点赞数

文章标签：线性回归机器学习算法

本文链接：https://blog.csdn.net/qq_53684597/article/details/131958660

版权

先假设一个实体 $X_1$ 有两个属性 $x_1,x_2$

拟合平面为： $h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2$ ,这在三维空间中是一个平面随着属性的增多就会变成多为空间的超平面

这里的 $\theta_0$ 代表了西瓜书上的常数项 $b$

因为机器学习中所有的计算都是矩阵的计算所以关于 $X$ 的举证会变多加一列1的增广矩阵
$\begin{bmatrix} 1&x_{11}&x_{12}&...\\ 1&x_{21}&x_{22}&...\\ 1&x_{31}&x_{32}&...\\ 1&x_{41}&x_{42}&...\\ \end{bmatrix}$
这样就可以写成整合的式子 $h_\theta(x)=\sum\limits_{i=1}^n\theta_ix_i$ 这里 $h_\theta(x)$ 是预测值

这样所有样本值则有方程 $y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}$

这个 $\epsilon$ 为误差项，根据大数定律和为了使用最大似然估计它需符合高斯分布，在实际应用中它要尽可能接近高斯分布，还有因为每个个体都是独立同分布的,因为它符合高斯分布有

$p(\epsilon^{(i)})=\dfrac{1}{\sqrt{2\pi}\sigma}exp(-\dfrac{(\epsilon^{(i)})^2}{2\sigma^2})$

$\epsilon^{(i)}=$ $y^{(i)}-\theta^Tx^{(i)}$

的 $p(y^{(i)}|x^{(i)};\theta)=\dfrac{1}{\sqrt{2\pi}\sigma}exp(-\dfrac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})$

似然函数 $L(\theta)=\prod\limits_{i=1}^np(y^{(i)}|x^{(i)};\theta)=\prod\limits_{i=1}^n\dfrac{1}{\sqrt{2\pi}\sigma}exp(-\dfrac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})$

因为我们要求的是极值点 $\theta$ 而不是极大值，这个似然函数的意思是 $\theta$ 与 $x$ 确定之后 $y^{(i)}$ 的概率

所以可以用对数这样就可以把连乘变为连加

对数似然 $logL(\theta)=log\prod\limits_{i=1}^n\dfrac{1}{\sqrt{2\pi}\sigma}exp(-\dfrac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})$

展开化简 $\sum\limits_{i=1}^nlog\dfrac{1}{\sqrt{2\pi}\sigma}exp(-\dfrac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})$

= $\dfrac{1}{\sqrt{2\pi}\sigma}-\dfrac{1}{\sigma^2}\cdot\dfrac{1}{2}\sum\limits_{i=1}^n{(y^{(i)}-\theta^Tx^{(i)})^2}$

这就是对数似然函数，这个函数值越大越好，出了一些确定的值之外就有了最小二乘法,这就是最小二乘法的由来前面的1/2和平方是这么来的，这个最小二乘函数越小越好

$J(\theta)=\dfrac{1}{2} \sum\limits_{i=1}^n{(y^{(i)}-\theta^Tx^{(i)})^2}$

$J(\theta)=\dfrac{1}{2} \sum\limits_{i=1}^n{(y^{(i)}-\theta^Tx^{(i)})^2}=\dfrac{1}{2} (y-X\theta)^T(y-X\theta)$

对 $\theta$ 求偏导 $\dfrac {\partial J}{\partial \theta}=X^TX\theta-X^Ty$ 这边计算比较复杂跳过

令偏导为0则有 $\theta=(X^TX)^{-1}X^Ty$

kyzz2

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
2
评论
西瓜书上的线性回归

这就是对数似然函数，这个函数值越大越好，出了一些确定的值之外就有了最小二乘法,这就是最小二乘法的由来前面的1/2和平方是这么来的，这个最小二乘函数越小越好。为误差项，根据大数定律和为了使用最大似然估计它需符合高斯分布，在实际应用中它要尽可能接近高斯分布，还有因为每个个体都是独立同分布的,因为它符合高斯分布有。,这在三维空间中是一个平面随着属性的增多就会变成多为空间的超平面。因为机器学习中所有的计算都是矩阵的计算所以关于。而不是极大值，这个似然函数的意思是。的举证会变多加一列1的增广矩阵。
复制链接

扫一扫