线性回归与 logistic回归

最新推荐文章于 2022-02-06 18:01:40 发布

约定写代码

最新推荐文章于 2022-02-06 18:01:40 发布

阅读量581

点赞数

分类专栏：机器学习文章标签：线性回归 logistic回归

本文链接：https://blog.csdn.net/flying_all/article/details/103942954

版权

机器学习专栏收录该内容

16 篇文章 2 订阅

订阅专栏

线性回归

算法方程： $h_{\theta}(x)=\sum_{i=0}^{n} \theta_{i} x_{i}=\theta^{T} x$

损失函数： $J\left(\theta_{0}, \theta_{1}, \ldots, \theta_{n}\right)=\frac{1}{2 m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}$
将损失函数看做是关于 $\theta$ 的函数。

最小化损失函数：凸函数可以找到全局最优解，算法梯度下降。
$\begin{array}{l}{\theta_{0}:=\theta_{0}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{0}^{(i)}} \\ {\theta_{1}:=\theta_{1}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{1}^{(i)}} \\ {\theta_{2}:=\theta_{2}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{2}^{(i)}} \\ {\ldots}\end{array}$

学习率： $\theta_{1}:=\theta_{1}-\alpha \frac{d}{d \theta_{1}} J\left(\theta_{1}\right)$
与收敛速度相关

过拟合与欠拟合：我们的假设函数曲线对原始数据拟合得非常好，但丧失了一般推到性，以致于预测效果很差。
解决方法：正则化
作用：控制参数幅度；限制参数搜索空间
$J(\theta)=\frac{1}{2 m}\left[\sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}+\lambda \sum_{j=1}^{n} \theta_{j}^{2}\right]$
假设原始线程方式是 $h_{\theta}(x)=\theta_1x_1+\theta_2x_2+\theta_3x_3+\theta_4x_4$ ，在线训练过程中，根据训练集数据大小，每一个 $\theta$ 的都可能非常大，或者非常小，这条线抖动非常大。如果在损失函数中加入 $\sum_{j=1}^{n} \theta_{j}^{2}$ ，因为损失函数要求最小值，所以每一个 $\theta$ 的值就不可能很大。
$\lambda$ 是一个超参数。 $\lambda$ 太小，正则化项不起作用； $\lambda$ 太大，学习到的参数主要由正则化项决定，与训练数据无关，也是错误的。
通常使用L1、L2正则化。

logistic回归

线性回归在分类问题上使用，健壮性差，所以使用logistic回归。
sigmoid函数值域在(0,1)之间，可以看做一个概率函数。
在线性回归外面套一层sigmoid函数。

算法方程： $h_{\theta}(x)=g\left(\theta_{0}+\theta_{1} x_{1}+\theta_{2} x_{2}\right)$
$h_{\theta}(x)=g\left(\theta_{0}+\theta_{1} x_{1}+\theta_{2} x_{2}+\theta_{3} x_{1}^{2}+\theta_{4} x_{2}^{2}\right)$

损失函数： $\operatorname{cost}\left(h_{\theta}(x), y\right)=\left\{\begin{aligned}-\log \left(h_{\theta}(x)\right) & \text { if } y=1 \\-\log \left(1-h_{\theta}(x)\right) & \text { if } y=0 \end{aligned}\right.$

$J(\theta)=-\frac{1}{m}\left[\sum_{i=1}^{m} y^{(i)} \log h_{\theta}\left(x^{(i)}\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)\right)\right]$

梯度下降优化公式： $\theta_{j}:=\theta_{j}-\alpha \frac{\partial}{\partial \theta_{j}} J(\theta)$

加入正则化： $J(\theta)=\left[-\frac{1}{m} \sum_{i=1}^{m} y^{(i)} \log \left(h_{\theta}\left(x^{(i)}\right)+\left(1-y^{(i)}\right) \log 1-h_{\theta}\left(x^{(i)}\right)\right]+\frac{\lambda}{2 m} \sum_{j=1}^{n} \theta_{j}^{2}\right.$