数据学习(1)·线性回归和Logistic回归

最新推荐文章于 2022-02-10 17:14:27 发布

冈仁波齐下写一串优美的代码

最新推荐文章于 2022-02-10 17:14:27 发布

阅读量343

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/m0_37846020/article/details/83625280

版权

机器学习专栏收录该内容

22 篇文章 0 订阅

订阅专栏

本系列是作者上课时记录的笔记整理，同时有对应的作业习题,自学的同学参考博客同步即可。邮箱联系humminwang@163.com

Preview：

监督学习（第一部分）

线性回归
Logistic回归
Softmax回归

编程作业

Review:

监督学习：
输入 $\chi$ ,目标 $\psi$ ,通过给出训练样本，我们希望学习到一个假设函数 $h:\chi\rightarrow\psi$ ,所以 $h (x)$ 是 $y$ 的一个好的预测器。
结构图
如果 $y$ 是离散的，我们称为分类问题。如果 $y$ 是连续的，我们称为回归问题。

1 线性回归

线性回归
$h(x)=\theta_0+\theta_1x_1+\theta_2x_2$
$\theta_i$ 称为参数。
使用向量标记：
$h(x)=\theta^Tx,\theta=\begin{bmatrix} \theta_0\\ \theta_1\\ \theta_2 \end{bmatrix},x=\begin{bmatrix} 1\\ x_1\\ x_2 \end{bmatrix}$
最小二乘法
损失函数：
$J(\theta)=\frac{1}{2}\sum_{i=1}^m(h(x^{(i)})-y^{(i)})^2$
$x^{(i)}$ 表示第几个样本，而 $x_{i}$ 表示 $x$ 的第几个特征。

总结最小二乘法问题：
$min_\theta\quad J(\theta)=min_\theta\frac{1}{2}\sum_{i=1}^m(h(x^{(i)}-y^{(i)}))^2$
最小化损失函数的方法：

数值解法（梯度下降，牛顿方法）
分析解法（正规方程）

1.1 梯度下降

利用一阶导数优化，来发现最优值。

如果 $J(\theta)$ 是凸的，那么梯度下降算法一定可以找到全局最优解。
要点：

随机开始
迭代计算 $\theta$

对最小二乘法来说：
$min_\theta\quad J(\theta)=min_\theta\frac{1}{2}\sum_{i=1}^m(h(x^{(i)})-y^{(i)})^2=\frac{1}{2}\sum_{i=1}^m(\theta^Tx^{(i)}-y^{(i)})^2$
$\bigtriangledown J(\theta)=\begin{bmatrix}\frac{\partial J(\theta)}{\partial \theta_1}\\ ...\\ \frac{\partial J(\theta)}{\partial \theta_n} \end{bmatrix},$
$\frac{\partial J(\theta)}{\partial\theta_j}=\frac{\partial \frac{1}{2}\sum_{i=1}^m(\theta^Tx^{(i)}-y^{(i)})^2}{\partial\theta_j}=\sum_{i=1}^m(\theta^Tx^{(i)}-y^{(i)})x_j^{(i)}$
损失函数： $\bigtriangledown J(\theta)=\sum_{i=1}^m(\theta^Tx^{(i)}-y^{(i)})x_j^{(i)}$
梯度更新公式： $\theta:=\theta-\alpha\bigtriangledown J(\theta)$
Batch (批)梯度下降和随机梯度下降：
不同梯度下降
$\theta$ 每次更新，每次读取训练数据。

随机梯度下降很快
适合大量的数据

1.2 正规方程

最小化 $J(\theta)$ :
矩阵表示形式：
$\begin{bmatrix} ...(x^{(1)})^T...\\ ...(x^{(2)})^T...\\ ....\\ ...(x^{(m)})^T... \end{bmatrix},y=\begin{bmatrix} y^{(1)}\\ y^{(2)}\\ ....\\ y^{(m)} \end{bmatrix}$
$J(\theta)=\frac{1}{2}(X\theta-y)^T(X\theta-y)$
计算梯度：
$\bigtriangledown_\theta J(\theta)=\bigtriangledown_\theta[\frac{1}{2}(X\theta-y)^T(X\theta-y)]=X^TX\theta-X^Ty$
当 $J(\theta)$ 是凸的时，可以达到全局最优，这时 $\bigtriangledown J(\theta)=0$
这时 $\theta=(X^TX)^{-1}X^Ty$

正规方程求解和梯度下降的区别

正规方程：

解析表达式
不稳定，不一定可以求解，当特征之间是有很强的联系的时候
速度会很慢，当数据很大的时候

梯度下降：

迭代解法
需要选择合适的 $\alpha$ 来确保损失函数的收敛
对大规模数据很适用

1.3 牛顿法优化损失函数

牛顿法通过迭代的方法求解方程的根。
$x_{n+1}:=x_n-\frac{f(x_n)}{f`(x_n)}$
通过使用牛顿法来解决 $\bigtriangledown_\theta J(\theta)=0:$
x是一维的：
$\theta:=\theta-\frac{f`(x)}{f``(x)}$
x是多维的：
$\theta=\theta-H^{-1}(\theta)\bigtriangledown J(\theta)$

H是HESSIAN矩阵。

优点

比梯度下降需要更少次迭代。
计算 $H^{-1}$ 需要很多时间。
当n很小的时候，计算的很快。

2 Logistic回归

2.1 Logistic回归的预测函数

Sigmoid函数：
$g(z)=\frac{1}{1+e^{-z}}$
$g:R\rightarrow(0,1)$
$g ‘ (z) = g (z) (1 - g (z))$
Logistic的预测函数：
$h_\theta=g(\theta^TX)=\frac{1}{1+e^{-\theta^TX}}$

Logistic回归的最大似然估计：
Logistic回归假设y|x是伯努利分布，即：
$p(y=1|x;\theta)=h_\theta(x),p(y=0|x;\theta)=1-h_\theta(x)$
m个独立分布的样本，似然函数是：
$L(\theta)=p(y|x;\theta)=\prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta)$
$I(\theta)=log(L(\theta))=\sum_{i=1}^my^{(i)}logh_\theta(x^{(i)})+(1-y^{(i)})log(1-h_\theta(x^{(i)}))$
随机梯度下降

2.2 多类别分类

每个数据属于多类别中的一类；
$\psi=\{1,....K\}$
MNIST

2.2.1传统方法多分类

one-VS-rest

多次利用二分类来划分数据。

缺点：

类别不平衡：负样例的个数大于正样例的个数。
不同的分类器有着不同的置信标量。

3 SoftMax回归

假设 $p (y ∣ x)$ 是多项式分布。
$h_\theta(x)=\begin{bmatrix} p(y=1|x;\theta_1)\\ ...\\ ...\\ p(y=k|x;\theta_k)\end{bmatrix}=\frac{1}{\sum_{j=1}^ke^{\theta^T_j}x_j }\begin{bmatrix} e^{\theta^T_1}x\\ e^{\theta^T_2}x\\ ...\\ e^{\theta^T_k}x\end{bmatrix}=softmax(\theta^Tx)$
$softmax(z_i)=\frac{e^{z_i}}{\sum_{j=1}^{k}e^{z_j}}$

给出m个样本 $x^{(i)},y^{(i)}),i=1,...m,log$ 下的SoftMax似然函数:
$l(\theta)=\sum_{i=1}^mlogp(y^{(i)}|x^{(i)};\theta)=\sum_{i=1}^mlog\prod_{l=1}^kp(y^{(i)}=l|x^{(i)})^{\{{1y^{(i)}=l\}}}=\sum_{i=1}^{m}\sum_{l=1}^k\{1{y^{(i)}=l}\}logp(y^{(i)}=l|x^{(i)})$
$=\sum_{i=1}^m\sum_{l=1}^k1\{y^{(i)}=l\}log\frac{e^{\theta^T_lx^{(i)}}}{\sum_{j=1}^ke^{\theta_j^Tx^{(i)}}}$