机器学习算法入门索引

最新推荐文章于 2023-07-13 10:51:55 发布

cyendra

最新推荐文章于 2023-07-13 10:51:55 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

本文链接：https://blog.csdn.net/cyendra/article/details/45770239

机器学习专栏收录该内容

7 篇文章

订阅专栏

索引

学习模型
- 线性模型
  - 乘法模型
  - 加法模型
- 核模型
- 层级模型
有监督学习
- 分类
- 回归
  - 线性回归
  - 局部加权线性回归
  - 岭回归
  - Lasso回归
  - 弹性网回归
  - 树回归
无监督学习
- K-均值聚类
- 关联规则

简介

决策树学习

原理

这里的决策树指的是分类树。
决策树中的每一个节点代表了一个维度，输入的向量X根据当前节点代表的维度的值的不同划分到了不同的子树，当到达叶子节点时就得到了X的类别。

实现

决策树划分方式通常有两种，信息增益和基尼不纯度。
构建过程一般从根节点开始，每次根据划分方式选择最佳的维度来分裂出子节点。

朴素贝叶斯分类器

原理

实现

逻辑回归

原理

Sigmoid函数： $\sigma (z)=\frac{1}{1+e^{-z}}$
Logistic回归分类器在输入向量的每个特征维度上乘以一个回归系数，将结果相加代入Sigmoid函数，大于0.5的数据被归入1类，小于0.5归入0类。

实现

通常用梯度上升方法计算回归系数 $w$

自适应增强

原理

使用多个弱分类器串行训练成一个强训练器。
首先使用一个原始的学习算法，对训练样本 $\{(x_i,y_i)|x_i\in\mathbb{R},y_i\in\{+1,-1\}\}_{i=1}^n$ 进行普通分类器的学习，然后对不能正确分类的样本加大其权重，最正确分类的样本降低权重。边学习边更新样本的权重，并把学习过程中得到的所有分类器放在一起，对其可信度进行平均后训练得到最终的强分类器。

实现

把训练样本 $\{(x_i,y_i)\}_{i=1}^n$ 对应的各个权重 $\{w_i\}_{i=1}^n$ 设置为均等，即 $\frac{1}{n}$ ，并把强分类器 $f$ 的初始值设为0。
定义加权误分类率 $R(\varphi)=\sum_{i=1}^{n}\frac{w_i}{2}(1-\varphi(x_i)y_i)$ 。
选择加权误分类率最小的弱分类器 $\varphi_j$ 进行学习， $\varphi_j=\underset{\varphi}{argmin} \ R(\varphi)$ 。
定义弱分类器 $\varphi_j$ 的话语权为 $\theta_j=\frac{1}{2}log\frac{1-R(\varphi_j)}{R(\varphi_j)}$ 。
将弱分类器添加到强分类器 $f$ 中，使得 $f(x)\leftarrow sign(f(x)+\theta_j\varphi_j)$
定义规范化因子为 $Z=\sum_{i=1}^{n}w_i\ exp(-\theta_j f_j(x_i)y_i)$
更新样本的权重 $\{w_i\}_{i=1}^n$

w i \leftarrow w i e x p ( - θ j f j ( x i ) y i ) Z

$w_i\leftarrow \frac{w_i\ exp(-\theta_j f_j(x_i)y_i)}{Z}$
也可以通过

w i \leftarrow e x p ( - f ( x i ) y i ) \sum n k = 1 e x p ( - f ( x k ) y k )

$w_i\leftarrow \frac{exp(-f(x_i)y_i)}{\sum_{k=1}^nexp(-f(x_k)y_k)}$
更新权重。
若b为强分类器中的弱分类器个数，则最终得强分类器为

f = s i g n (\sum i = 1 b θ i f i (x))

$f=sign\left( \sum_{i=1}^{b} \theta_i f_i(x)\right)$

随机森林

原理

随机森林包含多个决策树，随机森林的输出由全体决策树输出的众数决定。

实现

从全体样本M中有放回的选取M次组成新的训练集，从训练集的N个特征维度中随机选取n个特征维度，其中n远小于N。用所得的含有m个特征维度的训练集训练决策树。
重复若干次，形成多个决策树，组成随机森林。

支持向量机

原理

寻找超平面对样本空间进行分割，使得两种类别的数据分布在超平面两侧。
支持向量是离超平面最近的那些点，通过最大化支持向量到超平面的距离找到最优的超平面。
定义数据点到超平面的距离为几何距离 $\frac{|w^TA+b|}{\|w\|}$
由于数据未必线性可分，引入松弛变量。

实现

线性回归

原理

回归，是指把实函数在样本点附近加以近似的有监督的函数近似问题，是对一个或多个自变量和因变量之间的关系进行建模、求解的一种统计方法。
函数 $y=f(x)$ 以 $d$ 维实数向量 $\vec{x}$ 为输入，实数值 $y$ 做输出。
这里的真实函数关系 $f$ 是未知的，作为训练集的输入输出样本 $\{(\vec{x}_i,y_i)\}_{i=1}^n$ 是已知的。用 $\hat{f}$ 表示通过学习而获得的函数。

最小二乘法是回归中最基础的方法。
最小二乘学习法是对模型的输出 $f_\theta(x_i)$ 和训练集输出 $\{y_i\}_{i=1}^n$ 的平方误差 $J_{LS}(\theta)=\frac{1}{2}\sum_{i=1}^n(f_\theta(x_i)-y_i)^2$ 为最小时的参数 $\theta$ 进行学习。 $\hat{\theta}_{LS}=\underset{\theta}{argmin}J_{LS}(\theta)$
平方误差 $(f_\theta(x_i)-y_i)^2$ 是残差 $f_\theta(x_i)-y_i$ 的二阶范数。因此最小二乘法有时也成为 $l_2$ 损失最小化学习法。

实现

如果使用线性模型 $f_\theta(x)=\sum_{j=1}^b\theta_i\phi(x)=\theta^T\phi(x)$ 的话，训练样本的平方差 $J_{LS}$ 就能表示为 $J_{LS}(\theta)=\frac{1}{2}\|\Phi\theta-y\|^2$ ，这里 $y=(y_1,\dots,y_n)^T$ 是训练样本的输出， $\Phi$ 是 $n\times b$ 阶矩阵，也称为设计矩阵。

Φ = ⎛ ⎝ ⎜ ⎜ ϕ 1 (x 1) ⋮ ϕ 1 (x n) \dots ⋱ \dots ϕ b (x 1) ⋮ ϕ b (x n) ⎞ ⎠ ⎟ ⎟

$\Phi=\begin{pmatrix} \phi_1(x_1) & \dots & \phi_b(x_1) \\ \vdots & \ddots &\vdots \\ \phi_1(x_n)&\cdots & \phi_b(x_n) \end{pmatrix}$
训练样本的平方差

JLS $J_{LS}$ 的对参数向量

θ $\theta$ 求偏导得

ΔθJLS=(∂JLS∂Jθ1,…,∂JLS∂Jθb)T=ΦTΦθ−ΦTy $\Delta _\theta J_{LS}=\left(\frac{\partial J_{LS}}{\partial J_{\theta_1}},\dots,\frac{\partial J_{LS}}{\partial J_{\theta_b}}\right)^T=\Phi^T\Phi\theta-\Phi^Ty$ 。令偏导为0，得

ΦTΦθ=ΦTy $\Phi^T\Phi\theta=\Phi^Ty$ 因此

θ^LS=(ΦTΦ)−1ΦTy $\hat{\theta}_{LS}=(\Phi^T\Phi)^{-1}\Phi^Ty$

局部加权线性回归

原理

对第 $i$ 个训练样本的平方差通过权重 $w_i\geq 0$ 进行加权，然后再通过最小二乘法进行加权，称为加权最小二乘学习法。
$\underset{\theta}{argmin}\frac{1}{2}\sum_{i=1}^nw_i(f_\theta(x_i)-y_i)^2$

实现

用与最小二乘法同样的方法进行求解得 $\hat\theta=(\Phi^TW\Phi)^{-1}\Phi^TWy$
这里的 $W$ 是以 $w_i$ 为对角元素的对角矩阵。
为了对附近点赋予更高的权重，可以使用高斯核 $w(i,i)=exp\left(\frac{|x_i-x|}{-2k^2}\right)$

岭回归

原理

岭回归又称为 $l2$ 约束的最小二乘学习法。
在一般最小二乘法中，参数 $\{\theta_j\}_{j=1}^b$ 可以自由设置，使用全体参数空间，通过把参数空间限制在一定范围内来防止过拟合。
$\underset{\theta}{argmin}J_{LS}(\theta)$ 约束条件 $\|\theta\|^2\leq R$

实现

利用拉格朗日对偶问题求解.
$\underset{\lambda}{max}\underset{\theta}{min}\left [ J_{LS}(\theta)+\frac{\lambda}{2}(\left \| \theta \right \|^2 -R) \right ]$
拉格朗日因子 $\lambda$ 由半径 $R$ 决定，如果直接指定 $\lambda$ 则
$\hat \theta=\underset{\theta}{argmin}\left[J_{LS}(\theta)+\frac{\lambda}{2}\|\theta\|^2\right]$
对参数 $\theta$ 求偏导，另偏导为0，得 $\hat\theta=(\Phi^T\Phi+\lambda I)^{-1}\Phi^T y$

Lasso回归

原理

当参数特别多时，学习与求解会消耗大量时间。Lasso回归把大部分参数都置为0，可以快速的求解与学习。
Lasso回归又称为 $l1$ 约束的最小二乘学习法。
$\underset{\theta}{argmin}J_{LS}(\theta)$ 约束条件 $\|\theta\|_1\leq R$
由于 $J_{LS}$ 是下凸函数，因此在参数空间内具有等高线，其底部是最小二乘解 $\hat\theta_{LS}$ 。另一方面， $l1$ 约束的最小二乘解 $\hat\theta_{l_1CLS}$ 的范围在参数 $\theta$ 的各个轴上都有角。等高线与 $\hat\theta_{l_1CLS}$ 的范围的相交点就是 $\hat\theta_{l_1CLS}$ 的解，因此通常解都位于参数的轴上，这样参数中会有若干个0，称为稀疏学习。

实现

弹性网回归

原理

弹性网回归又称为 $l1+l2$ 约束的最小二乘学习法，利用 $l1+l2$ 范数的凸结合来进行约束。
$(1-\tau)\|\theta\|_1+\tau\|\theta\|^2\leq R$
$\tau$ 是满足 $0\leq\tau\leq1$ 的标量。
当 $\tau=0$ 时， $l1+l2$ 约束变为 $l1$ 约束，当 $\tau=1$ 时， $l1+l2$ 约束变为 $l2$ 约束。