机器学习6 - 算法进阶1

YoutiaoNo2

于 2020-09-14 22:17:21 发布

阅读量330

点赞数 2

本文链接：https://blog.csdn.net/YoutiaoNo2/article/details/108580954

版权

机器学习6 - 算法进阶

- 知识点

知识点

最大似然函数
$L(x_{1},x_{2},\dots,x_{n};\theta_1,\theta_2,\dots,\theta_{k})=\prod_{i=1}^{n}f(x_{i},\theta_1, \theta_2,\dots,\theta_{k})$
求 $\theta$ 的值从而使得似然函数取最大值。求解：
$logL(\theta_1,\theta_2,\dots,\theta_{n}) = \sum_{i=1}^{n}logf(x_{i};\theta_1,\theta_2,\dots,\theta_{k})$
$\frac{\partial L(\theta)}{\partial \theta_{i}} = 0 \quad i = 1,2,\dots,k$
二项分布
$f(n|p) = log(p^{n}(1-p)^{N-n}) = h(p)$
$\frac{\partial h(p)}{\partial p} = \frac{n}{p}-\frac{N-n}{1-p}\rightarrow0 \Rightarrow p = \frac{n}{N}$
正态分布
$-\frac{n}{2}log(2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum_{i}(x_{i}-\mu)^2$ 对 $\sigma,\mu$ 求导可以得出:
$\begin{cases} \mu = \frac{1}{n}\sum_{i}X_{i} \\ \sigma^2 = \frac{1}{n}\sum_{i}(X_{i}-\mu)^2 \end{cases}$
高斯分布的对数似然和最小二乘。
$y_{i} = \theta^{T}x_{i}+\epsilon_{i}$
假设 $\epsilon_{i} ~ n(0,\sigma^2)$ ，线性模型。
$\begin{aligned} L(y_{i}|\theta,x_{i}) &= log\prod_{i}^{n}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\epsilon_{i}^2}{2\sigma^2}} \\ &=log\prod_{i}^{n}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y_{i}-h_{\theta}(x_{i}))^2}{2\sigma^2}} \\ & = -\frac{n}{2}log2\pi\sigma^2-\frac{1}{2\sigma^2}\sum_{i=1}^{n}(y_{i}-h_{\theta}(x_{i}))^2 \\ &\Rightarrow maximize \quad -\frac{1}{2}\sum_{i=1}^{n}(y_{i}-h_{\theta}(x_{i}))^2 \\ & \Leftrightarrow minimize \sum_{i=1}^{n}(y_{i}-h_{\theta}(x_{i}))^2 \end{aligned}$ 使用最小二乘求解即可。广义逆，MOORE-PENROSE逆：
$A^{+} = (X^{T}X)^{-1}X^{T}$
Ridge L2正则。Lasso L1正则。
ElasticNet正则项：
$\lambda(\rho\sum_{j}|\theta_{j}|+(1-\rho)\sum_{j}\theta_{j}^2)$
当模型复杂时偏向于LASSO，当模型简单时偏向于RIDGE。
梯度下降算法：
- batch(BGD)：全部数据做的。
- 随机梯度法(SGD)：每次随机选取一个样本。
- mini-batch：折中法，选取小批量样本取平均梯度做下降，一般取2的次幂。
- Adaboost：自适应的为各个参数分配不同学习率的算法，通过每个参数的学习率除以它之前导数的均方根来调节学习率。
决定系数
$\begin{aligned} R^2 &= \frac{SSR}{SST} \\ &= \frac{\sum_{i}(\hat{y}-\bar{y_{i}})^2}{\sum_{i}(y_{i}-\bar{y})^2} \end{aligned}$
逻辑回归参数估计:
假设二项分布，广义线性模型。
决策边界求解：
$\begin{aligned} \frac{P(y=1|x,w)}{P(y=0|x,w)} &= 1\\ e^{-(w^{t}x+b)} &= 1 \\ w^{t}x+b &= 0 \end{aligned}$
由此可得线性决策边界，因此逻辑回归是线性分类器。
$P(\theta) = \prod_{i}h_{\theta}(x_{i})^{y_{i}}(1-h_{\theta}(x_{i}))^{1-y_{i}} \\ L(\theta) = \sum_{i}y_{i}logh_{\theta}(x_{i})+(1-y_{i})log(1-h_{\theta}(x_{i}))$
其损失函数即为 $-L(\theta)$ ，核心是sigmoid函数：
$\frac{1}{1+e^{-x}}$
$\frac{e^{-x}}{1+e^{-x}}=g(x)(1-g(x))$
没有解析解，因此使用梯度下降法求解：
$\begin{aligned} \frac{\partial L(\theta)}{\partial \theta_{j}} & =\sum_{i}(\frac{y_{i}}{h}-\frac{1-y_{i}}{1-h})\frac{\partial h}{\partial \theta_{j}} \\ & = \sum_{i}(\frac{y_{i}}{g}-\frac{1-y_{i}}{1-g})g(1-g)\frac{\partial g}{\partial \theta_{j}}\\ &= \sum_{i}(y_{i}-g(\theta^{T}x_{i}))x_{ij} \end{aligned}$
$\theta_{j} = \theta_{j} +\alpha(y_{i}-h_{\theta}( x_{i})x_{ij})$
$w^{t+1} = w^{t}- \eta_{t}\sum_{i=1}^{N}[\sigma(w^{T}x_{i}+b)-y_{i}]x_{i}\\ b^{t+1} = b^{t}- \eta_{t}\sum_{i=1}^{N}[\sigma(w^{T}x_{i}+b)-y_{i}]$
上式为正向增大极大似然函数，即减小损失函数。
凡是符合指数族分布的随机变量，都可以使用广义线性模型。指数族分布：高斯，二项，伯努利，泊松，伽马。
softmax分类器：
$p(c=k|x;\theta) = \frac{exp(\theta_{k}^{T}x)}{\sum_{i=1}^{k}exp(\theta_{i}^{T}x)}$
ROC曲线：横坐标为FPR, 纵坐标为TPR, AUC为ROC下面积。
熵（核心概念）对应事件的不确定性。

条件熵： $H (Y ∣ X) = H (X, Y) - H (X) = H (Y) - I (X, Y)$
相对熵：又称互熵，交叉熵，KL散度等。
设p(x),q(x)是X中取值的两个概率分布，则p对q的相对熵是
$\sum_{x}p(x)log\frac{p(x)}{q(x)}$ 相对熵可以度量两个变量间的距离。
互信息：
$I (X, Y) = D (P (X, Y) ∣ ∣ P (X) P (Y))$
$\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}$
独立则为0，不独立大于0。
重要结论：
- I(X,Y) = H(X)+H(Y)-H(X,Y)
- H(X|Y)<=H(X), H(Y|X)<=H(Y)

决策树：贪心算法。ID3,C4.5,CART。关于Gini index:
将 $f (x) = - l n x$ 在x=1处泰勒展开，忽略高阶无穷小，可以得到 $\approx 1-x$ 。
$H(x)=-\sum_{k=1}^{K}p_{k}lnp_{k}\approx\sum_{k=1}^{K}p_{k}(1-p_{k})$
决策树缺点：泛化能力弱，可能发生过拟合。
Bagging：综合多个分类器决定数据的类别。Bootstrap抽样N次，一次都没有出现过的数据概率：
$1-(1-\frac{1}{N})^{N}=1-((1+\frac{1}{-N})^{-N})^{-1} = 1-\frac{1}{e} \approx 36.8\%$
$\begin{aligned} \lim_{n\rightarrow \infin}(1+\frac{1}{n})^{n} &= \lim_{n\rightarrow \infin} 1+n*\frac{1}{n}+\frac{n(n-1)}{2n^2}+\frac{n(n-1)(n-2)}{6n^3}+\dots \\ &= 1+1+\frac{1}{2!}+\frac{1}{3!}+\dots+\frac{1}{n!} \\ & = e \end{aligned}$
OOB data: 36.8% 用来验证
样本不平衡的解决方法，假定严重不平衡。

A类欠采样
- 随机欠采样
- A类分成若干子类，分别与B建模
- 基于聚类的A类分割
B类过采样
B类数据合成(SMOTE)：随便选取少类样本点，随机选取该点最近的n个同类点，从中随机选取一个点在连线上生成一个新的数据点。
代价敏感学习，降低A权重，增加B权重。

思考：
- 使用随机森林为何可以提高正确率，减少过拟合? 引入了随机性。
- 决策树后剪枝如何操作？https://www.jianshu.com/p/794d08199e5e
- 决策树是几叉树与这棵树的分类数目有什么关系？没有关系。
- 如果特征连续，如何得到分割点？离散为是否，连续则为<>=，同样适用gini系数。
- 请解释gini系数为何可以用于分类标准？gini系数是熵函数的一阶近似展开，因此可以用于分类标准。
提升：可用于回归和分类，每一步产生一个弱预测模型，并加权累积到总模型中；如果每一步的弱预测模型生成都是依据损失函数的梯度方向，则称为梯度提升。理论意义：只要存在弱分类器，则可以通过提升的办法得到强分类器。通常，
$L(y,F(\bold{x})) = \frac{1}{2}(y-F(\bold{x}))^2$
$L(y,F(\bold{x})) = |y - F(\bold{x})|$
假定 $F(\bold{x})$ 是一族基函数 $f_{i}(\bold{x})$ 的加权和
$F(\bold{x}) = \sum_{i=1}^{M}\gamma_{i}f_{i}(\bold{x})+const$
假设 $x_{i}$ 升序，求解：
$\mu^{*} = arg min\sum_{i=1}^{n}|x_{i}-\mu|$
$J(\mu) = \sum_{i=1}^{n}|x_{i}-\mu|=\sum_{i=1}^{k}(\mu-x_{i})+\sum_{i=k+1}^{n}(x_{i}-\mu)$
$\frac{\partial J(\mu)}{\partial \mu} = \sum_{i=1}^{k}(-1)+\sum_{i=k+1}^{n}(1) = 0$
则 $\mu$ 为中位数。同理可证若 $L$ 为平方，则 $\mu$ 为均值。
$F_{0}(\bold{x}) = argmin\sum_{i=1}^{n}L(y_{i},\gamma)$
以贪心的思路扩展到
$F_{m}(\bold{x})=F_{m-1}(\bold{x})+argmin\sum_{i=1}^{n}L(y_{i},F_{m-1}(\bold{x_{i}})+f(\bold{x_{i}}))$
$F_{m}(\bold{x}) = F_{m-1}(\bold{x})-\gamma_{m}\sum_{i=1}^{n}\nabla_{f}L(y_{i},F_{m-1}(\bold{x_{i}}))$
其中 $\gamma_{m}$ 为步长。
GBDT：
目标函数：
$J(f_{t})= \sum_{i=1}^{n}L(y_{i},\hat{y_{i}}^{(t-1)}+f_{t}(x_{i}))+\Omega(f_{t})+C$
其中 $\hat{y_{i}}^{(t-1)}$ 为前t-1棵树在第i个样本的输出和， $f_{t}$ 为第t棵树在第i个样本的值，求和则为第i个样本的预测值。
Xgboost核心求解过程，根据泰勒展示：
$J(f_{t}) \approx \sum_{i=1}^{n}[L(y_{i},\hat{y_{i}}^{(t-1)})+g_{i}f_{t}(x_{i})+\frac{1}{2}h_{i}f_{t}^2(x_{i})]+\Omega(f_{t})+C$
$\Omega(f_{t}) = \gamma T +\frac{1}{2}\sum_{j=1}^{T}w_{j}^2$
推导公式：

在结点处如何划分，枚举可行的分割点，选择增益最大的划分，重复操作，直到满足某阈值或得到纯结点。
$Gain(\phi) = \frac{1}{2}[\frac{G_{L}^2}{H_{L}+\lambda}+\frac{G_{R}^2}{H_{R}+\lambda}-\frac{(G_{L}+G_{R})^2}{H_{L}+H_{R}+\lambda}]-\gamma$
Xgboost与GBDT的比较，Xgboost使用了二阶泰勒展开，可以更快地在训练集上收敛。
- 由于随机森林族本身具备过拟合优势，因此Xgboost一定程度上具备该优势
- Xgboost实现中使用了多核/并行计算，因此训练速度快，同时它的原生语言为C/C++，这是它速度快的根本原因。
Adaboost:
构建基本分类器的线性组合
$\sum_{m=1}^{M}\alpha_{m}G_{m}(x)$
计算 $G_{m}(x)$ 在训练数据集上的分类误差率
$e_{m} = P(G_{m}(x_{i})\neq y_{i})=\sum_{i=1}^{N}w_{mi}I(G_{m}(x_{i})\neq y_{i}) < 0.5$
计算 $\alpha_{m}$ ：
$\alpha_{m} = \frac{1}{2}log\frac{1-e_{m}}{e_{m}}$
其中 $G_{m}(x)\in \{-1,1\},y\in\{-1,1\}$ 。
得到最终分类器
$sign(\sum_{m=1}^{M}\alpha_{m}G_{m}(x))$

base_estimator = DecisionTreeClassifier(criterion,max_depth,min_sample_split)
clf = AdaBoostClassifier(base_estimator,n_estimators,learning_rate)
clf.fit()

Adaboost是加法模型，损失函数为指数函数，学习算法为前向分布算法时的二类学习方法。
$L (y, f (x)) = e x p (- y f (x))$

支持向量机。

距离公式：
$d=\frac{|Ax_{0}+By_{0}+C|}{\sqrt{A^2+B^2}}$
目标函数：
$max\{\frac{1}{||w||}min [y_{i}\cdot(w^{T}\cdot\Phi(x_{i})+b)]\}$
目标函数变形：
$\begin{cases} max \frac{1}{||w||} \\ s.t. \quad y_{i}(w^{T}\cdot\Phi(x_{i})+b) \geq 1 \quad i=1,2,3,...,n \end{cases}$
即
$\begin{cases} min \frac{||w||}{2}\\ s.t. \quad y_{i}(w^{T}\cdot\Phi(x_{i})+b) \geq 1 \quad i=1,2,3,...,n \end{cases}$
拉格朗日乘子法：原问题是极小极大问题，对偶问题是极大极小问题。拉格朗日方程：
$G(x,\bold{\nu},\bold{\lambda}) = f(x)+\sum_{i=1}^{n}\nu_{i}f_{i}(x)+\sum_{j=1}^{m}\lambda_{j}h_{j}(x)$
其对偶函数为
$\ G(x,\bold{\nu},\bold{\lambda})$
是一个凹函数，可以凸优化求解。其中 $f_{i}(x)\leq0$ ， $h_{j}(x)=0$ ， $\nu_{i}\geq 0$ ， $\lambda \in R$ 。
求解：

线性支持向量机
- 不一定分类完全正确的超平面就是最好的
- 样本数据本身线性不可分
核函数。本质上是将原特征映射到高维空间之后使其线性可分。
- 多项式核： $K(x_1,x_2) = (x_1\cdot x_2+c)^{d}$ ，d=1时线性核。
- 高斯核RBF： $K(x_1,x_2) = exp(-\gamma\cdot||x_1-x_2||^2)$
- Sigmoid核： $K(x_1,x_2) = tanh(x_1\cdot x_2+c)$
  实际应用中，往往依赖先验知识，若无则选择高斯核函数。注意：使用高斯核函数前需要做feature scaling。
SVM可以看成是一个两层的神经网络，一层做了特征映射，一层做了分类。
核函数选特征，拉格朗日乘子法选支撑向量。和CNN相似，都是稀疏模型，部分连接。
SVR原理同SVM，都是找一个超平面，区别是SVM找最大间隔，SVR找最小距离和。
Hinge loss

调参：
在这里插入图片描述

KKT条件：
对于具有等式和不等式约束的一般优化问题：
$\begin{cases} min f(x) \quad \quad 最值问题 \\ s.t. g_{j}(x) \leq 0 \quad j=1,2,3,...,n \quad 不等式约束 \\ h_{k}(x) = 0 \quad \quad k=1,2,....l \quad 等式约束 \end{cases}$
KKT条件给出了判断 $x^{*}$ 是否为最优解的必要条件：
$\begin{cases} \frac{\partial f}{\partial x_{i}}+\sum_{j=1}^{m}\mu_{j}\frac{\partial g_{j}}{\partial x_{i}}+\sum_{k=1}^{l}\lambda_{k}\frac{\partial h_{k}}{\partial x_{i}} = 0 \quad i = 1,2,3,....,n \\ h_{k}(x) = 0 \quad k = 1,2,3,....,l \\ \mu_{j}g_{j}(x) = 0 \quad j=1,2,3,...,n\\ \mu_{j} \geq 0 \end{cases}$

等式约束优化问题，这一部分其实就是Langrange乘数法。
不等式约束优化问题：
转化思想：将不等式约束条件转化为等式约束条件
具体做法：引入松弛变量，松弛变量也是优化变量，求导时需要一起计算。
可以参考：https://zhuanlan.zhihu.com/p/38163970

sklearn逻辑图

YoutiaoNo2

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习6 - 算法进阶1

机器学习6 - 算法进阶知识点知识点最大似然函数L(x1,x2,…,xn;θ1,θ2,…,θk)=∏i=1nf(xi,θ1,θ2,…,θk)L(x_{1},x_{2},\dots,x_{n};\theta_1,\theta_2,\dots,\theta_{k})=\prod_{i=1}^{n}f(x_{i},\theta_1, \theta_2,\dots,\theta_{k})L(x1,x2,…,xn;θ1,θ2,…,θk)=i=1∏nf(xi,θ1,θ2,…,θk)求θ\
复制链接

扫一扫