机器学习算法总结, 本文将总结机器学习基本算法的目的，输入和输出，训练的参数，训练方法（误差函数的选择，调参方法）等等

最新推荐文章于 2022-11-04 16:47:04 发布

dxmato

最新推荐文章于 2022-11-04 16:47:04 发布

阅读量376

点赞数

分类专栏：机器学习文章标签：机器学习算法简述

本文链接：https://blog.csdn.net/weixin_39584132/article/details/102547468

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

机器学习算法总结

本文将总结机器学习基本算法的目的，输入和输出，训练的参数，训练方法（误差函数的选择，调参方法）等等

1. 线性回归

函数形式（训练目标）：多元线性回归试图学得
$f(x_i)=w^Tx+b\:\:st.\:\:f(x_i) = y_i$
函数的好坏度量：
$(\mathbf{y-X\hat{w}})^T(\mathbf{y-X\hat{w}})$
对w_hat求导可得：
$\frac{\partial E_{\hat{w}}}{\partial \hat{w}} = 2\mathbf{X^T(X\hat{w}-y)}$
上式得0可得w_hat最优解的闭式解（但是有可能参数过多，无法求出）

或者使用梯度下降对参数进行调整，得：
$w_i = w_i - \eta\sum_{n}-(\hat{y}^n-f_{w,b}(x^n))x_i^n$

2. logistic回归

函数形式（训练目标）：逻辑回归处理分类问题，如果结果大于0.5结果为类别1，否则为类别2
$f_{w,b}(x) = \sigma(\sum_{i}w_ix_i+b)$
函数的好坏度量：
$L(w,b) = f_{w,b}(x^1)f_{w,b}(x^2)(1-f_{w,b}(x^3))...f_{w,b}(x^N)$
找出最大化上述函数的w,b, 即得到最好的函数。最终化简结果为交叉熵, 即求下列函数右侧的最小值
$\sum_{n}-[\hat{y}^{n}lnf_{w,b}(x^n)+(1-\hat{y}^n)ln(1-f_{w,b}(x^n))]$
计算这个式子对w偏微分，得到
$\frac{-lnL(w,b)}{\partial w_{i}} = \sum_{n}-(\hat{y}^n-f_{w,b}(x^n))x_i^n$
使用梯度下降法进行优化，直观就是观察预测值和实际值的差距，差距越大就更新越多
$w_i = w_i - \eta\sum_{n}-(\hat{y}^n-f_{w,b}(x^n))x_i^n$
这个式子和线性回归得到的式子一样的，区别是预测值和实际值的范围不同，逻辑回归是0到1，线性回归是实数范围

Tips

梯度下降法需要函数是可微分的
回归任务的损失函数：最小二乘误差
最大似然和最小误差的关系：目的相同，都是找到最佳的函数
MLE: Maximum likelihood Estimate, 极大似然估计
$\frac{P(D|h)*P(h)}{P(D)}$
上式中，h为假设，即最终的函数形态，D为数据，左侧后验概率代表已知数据，假设为h的概率。右侧分子第一项代表已知假设，求得数据集是已知数据集的概率，即似然概率，p(h)则是先验概率。在线性回归中，可以通过高斯假设得出最大可能假设是最小化平方损失函数的假设。详细过程见证明最小二乘假设的合理性。

3.信息论基本概念

熵, $X$ 是离散型随机变量，取值空间为R。熵又称为自信息，可以视为描述一个变量的不确定性的值
$-\sum_{x\epsilon R}p(x)log_2p(x)$
联合熵，X,Y是一对离散型随机变量，遵守 $p (x, y)$ 分布，联合熵定义为：
$-\sum_{x\epsilon X}\sum_{y\epsilon Y}p(x,y)logp(x,y)$
给定随机变量X的情况下，Y的条件熵定义为：
$\sum_{x\epsilon X}p(x)H(Y|X=x)$
展开可得：
$\sum_{x\epsilon X}\sum_{y\epsilon Y}p(x,y)logp(y|x)$
连锁法则

将联合概率展开，可得熵的连锁法则
$H (X, Y) = H (X) + H (Y ∣ X)$
互信息 $I (X, Y)$ 反映的是知道了Y的值以后X的不确定性的减少量
$\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}$
互信息体现了两变量之间的依赖程度，如果互信息得0，两变量相互独立
相对熵，是衡量相同事件空间里两个概率分布相对差距的测度，两个概率分布p(x)和q(x)的相对熵定义为：
$\sum_{x\epsilon X}p(x)log\frac{p(x)}{q(x)}$
交叉熵用来衡量估计模型与真实概率分布之间的差异情况。
$-\sum_xp(x)logq(x)$

4.支持向量机

函数形式（训练目标）：

线性向量机：
$\sum_iw_ix_i + b = \begin{bmatrix} w \\ b \end{bmatrix}dot \begin{bmatrix} x \\ 1 \end{bmatrix}$
损失函数：这里面的loss都是一个训练样例的loss, 累加之后才得到系统的所有loss
$hinge\;loss :l(f(x^n),\hat{y}^n) = max(0,1-\hat{y}^n(f(x^n)*(f(x^n))(0)$

$Square\;loss + Sigmoid :l(f(x^n),\hat{y}^n)=(\sigma(\hat{y}^nf(x))-1)^2\;(1)$

$cross\;entropy\;\;l(f(x^n),\hat{y}^n) = ln(1+exp(-\hat{y}^nf(x))) \; (2)$

由（0）可推导出损失函数（cost_1为label为1的损失函数）：
$\left\{\begin{matrix} max(0,-x+1) (y^{i}=1) \\ max(0,x-1) (y^{i}=0) \end{matrix}\right.$

$J(\theta) = C\sum_{i=1}^{m}[y^{(i)}cost \;t_1(\theta^Tx^{(i)})+(1-y^{(i)})cost\;t_0(\theta^Tx^{(i)})]+\frac{1}{2}\sum_{j=1}^{n}\theta_j^2$
这里的 $\frac{m}{\lambda}$ , C越大，SVM的决策边界margin也越大

当C越大时，margin也越大，我们的目标是最小化代价函数 $J(\theta)$ , 所以C的乘积项
$\sum_{i=1}^{m}[y^{(i)}cost \;t_i(\theta^Tx^{(i)})+(1-y^{(i)})cost\;t_0(\theta^Tx^{(i)})]$
要很小。最终近似为：
$J(\theta) = C*0+\frac{1}{2}\sum_{j=1}^{n}\theta_j^2 = \frac{1}{2}(\theta_1^2+\theta_2^2)$
我们的目标是求使代价最小的 $\theta$
几何论证：对于任意一个点，根据分类条件得出以下限制：
$\left\{\begin{matrix} \theta^Tx^{(i)}\geqslant1 (y^{i}=1) \\ \theta^Tx^{(i)}\leqslant-1 (y^{i}=0) \end{matrix}\right.$
将上述看为x和各个系数的点积，化为几何概念，可以得到：
$\left\{\begin{matrix} p^{(i)}||\theta||\geqslant1 (y^{i}=1) \\ p^{(i)}||\theta||\leqslant-1 (y^{i}=0) \end{matrix}\right.$
到 $\theta$ 上的投影为p,则 $p||\theta||>=1$ 或者 $p||\theta||<=-1$ , 如果因为要求 $\theta$ 很小，所以p要求很大，最终求得的就是点在 $\theta$ 方向投影最小，即在与 $\theta$ 垂直的决策边界上投影最大。
RBF Kernel核函数

RBF核函数，即高斯核函数，公式为：
$=e^{-\frac{||x-u||^2}{2\sigma^2}}$
Sigmoid Kernel核函数
$\;z)$

5.支持向量机(解释二)(其实二者的区别在于label为0和1还是-1和1)

如果是后者，则可以把代价函数合并，如下：

函数形式（训练目标）：
$\sum_iw_ix_i + b = \begin{bmatrix} w \\ b \end{bmatrix}dot \begin{bmatrix} x \\ 1 \end{bmatrix}$
损失函数：
$\sum_{n}\epsilon^n+\lambda||w||_2$

$\epsilon^n = max(0,1-\hat{y}^nf(x))$

由上式
$\epsilon^n \geq 0\\ \epsilon^n \geq1-\hat{y}^nf(x) \rightarrow\hat{y}^nf(x)\geq1-\epsilon^n$
优化方式：
$\leftarrow w-\eta\sum_{n}c^n(w)x^n$
w初始化为0，解出的结果是w是x的线性组合， $c^n(w)$ 是f对loss function的偏微分
$\sum_{n}\alpha_nx^n = X\mathbf{\alpha}$
w是nx1维， $w^T$ 是1xn维，x是nx1，X是n*N，所以
$w^T*x \rightarrow f(x) = \alpha^TX^Tx \rightarrow \sum_{n}\alpha_n(x^n\;dot\;x)$
$x^n\;dot\;x)$ 可以记为 $K(x^n,x)$
重写损失函数：
$\sum_{n}l(f(x^n),\hat{y}^n) = \sum_{n}l(\sum_{n'}\alpha_{n'}K(x^{n'},x^n),\hat{y}^n)$
核函数Tips
1. 核函数其实就是用来描述相似度的（向量的点积）
2. 通过mercer’s 定理来检测所定核函数能否拆分成点积

dxmato

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法总结, 本文将总结机器学习基本算法的目的，输入和输出，训练的参数，训练方法（误差函数的选择，调参方法）等等

机器学习算法总结本文将总结机器学习基本算法的目的，输入和输出，训练的参数，训练方法（误差函数的选择，调参方法）等等1. 线性回归函数形式（训练目标）：多元线性回归试图学得f(xi)=wTx+b st. f(xi)=yif(x_i)=w^Tx+b\:\:st.\:\:f(x_i) = y_if(xi)=wTx+bst.f(xi)=yi函数的好坏度量：L(w,b)=(...
复制链接

扫一扫

专栏目录