4 分类问题

最新推荐文章于 2022-09-15 22:53:41 发布

Gu_NN

最新推荐文章于 2022-09-15 22:53:41 发布

阅读量799

点赞数

分类专栏：集成学习

本文链接：https://blog.csdn.net/Gu_NN/article/details/118939140

版权

集成学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

基本概念

评价指标

混淆矩阵：
- 真阳性TP：预测值和真实值都为正例；
- 真阴性TN：预测值与真实值都为正例；
- 假阳性FP：预测值为正，实际值为负；
- 假阴性FN：预测值为负，实际值为正；
准确率：分类正确的样本数占总样本的比例，即： $\frac{TP+TN}{FP+FN+TP+TN}$ .
精度：预测为正且分类正确的样本占预测值为正的比例，即： $\frac{TP}{TP+FP}$ .
召回率：预测为正且分类正确的样本占类别为正的比例，即： $\frac{TP}{TP+FN}$ .
F1值：综合衡量精度和召回率，即： $2\frac{PRE\times REC}{PRE + REC}$ .
ROC曲线：以假阳率为横轴，真阳率为纵轴画出来的曲线，曲线下方面积越大越好。

python库： sklearn.metrics

分类和回归的区别（题1）

最大区别：分类问题预测的是离散变量，回归问题预测连续变量
因此，他们的评价方法也完全不同。

可以通过logistic 函数, $\dfrac{e^{\beta_0 + \beta_1X}}{1+e^{\beta_0 + \beta_1X}}}$ ，将线性回归预测结果转化为概率，然后和回归问题流程一样，用最大似然估计求出模型参数，进行分类预测。

常用模型

逻辑回归（题6）

通过logistic 函数, $\dfrac{e^{\beta_0 + \beta_1X}}{1+e^{\beta_0 + \beta_1X}}}$ ，将线性回归预测结果转化为概率，然后和回归问题流程一样，用最大似然估计求出模型参数，进行分类预测。

线性判别分析（LDA）

理解

贝叶斯角度理解
比较贝叶斯公式分子部分每种情况的大小，选择最大的情况作为最终类别。

假设 ${f_k(x) }$ 服从正态分布，而且每个 ${\sigma_k^2 = \sigma^2}$ ，同方差假设。
${f_k(x)=\dfrac{1}{(2\pi)^{\tfrac{p}{2}}|\Sigma|^\tfrac{1}{2}}e^{[-\tfrac{1}{2}(x-\mu_k)^T\Sigma^{-1}(x-\mu_k)]}}$
$\hat{\mu_k}=(\mu_{k1},\mu_{k2},......,\mu_{kp})$
$\hat{\Sigma}=\dfrac{1}{p-1}\sum\limits_{j=1}^p(x_j-\overline{x})(x_j-\overline{x})^T$
${\delta_k(x) = ln(\pi_kf_k(x))\\ =ln(\pi_k)-(\dfrac{p}{2}ln(2\pi)+\dfrac{1}{2}ln(|\Sigma|))-\dfrac{1}{2}(x-\mu_k)^T\Sigma^-1(x-\mu_k)\\ =x^T\hat{\Sigma}\hat{\mu}_k-\dfrac{1} {2}\hat{\mu}_k^T\hat{\Sigma}^{-1}\hat{\mu}_k+ln\hat{\pi}_k}$
只需要代入数据求出 ${\delta_k(x)}$ ，哪个 ${k}$ 对应的 ${\delta_k(x)}$ 大，就是哪一类。
降维分类思想
将数据降维至一维（类内方差小，类间方差大，即“松耦合，高内聚”），进行分类。
特征X： $X = (x_1,x_2,...,x_N)^T$
因变量Y： $(y_1,y_2,...,y_N)^T,\;\;其中，y_i \in \{+1,-1 \}$ ，类别c1的特征 $X_{c_1} = \{x_i|y_i=+1 \}$ ，同理，类别c2的特征 $X_{c_2} = \{x_i|y_i=-1 \}$ ，属于c1类别的数据个数为 $N_1$ ，属于类别c2的数据个数为 $N_2$ ，其中， $N_1+N_2 = N$ 。
特征X投影在w方向至一维： $z_i = w^Tx_i,\;\;||w|| = 1$
全样本投影的均值： $\bar{z} = \frac{1}{N}\sum\limits_{i=1}^{N}z_i = \frac{1}{N}\sum\limits_{i=1}^{N}w^Tx_i$
全样本投影的协方差： $S_z = \frac{1}{N}\sum\limits_{i=1}^{N}(z_i-\bar{z})(z_i-\bar{z})^T = \frac{1}{N}\sum\limits_{i=1}^{N}(w^Tx_i-\bar{z})(w^Tx_i-\bar{z})^T$
c1样本投影的均值： $\bar{z_1} = \frac{1}{N_1}\sum\limits_{i=1}^{N_1}z_i = \frac{1}{N_1}\sum\limits_{i=1}^{N_1}w^Tx_i$
c1样本投影的协方差： $S_{z_1} = \frac{1}{N_1}\sum\limits_{i=1}^{N_1}(z_i-\bar{z_1})(z_i-\bar{z_1})^T = \frac{1}{N_1}\sum\limits_{i=1}^{N_1}(w^Tx_i-\bar{z_1})(w^Tx_i-\bar{z_1})^T$
c2样本投影的均值： $\bar{z_2} = \frac{1}{N_2}\sum\limits_{i=1}^{N_2}z_i = \frac{1}{N_2}\sum\limits_{i=1}^{N_2}w^Tx_i$
c2样本投影的协方差： $S_{z_2} = \frac{1}{N_2}\sum\limits_{i=1}^{N_2}(z_i-\bar{z_2})(z_i-\bar{z_2})^T = \frac{1}{N_2}\sum\limits_{i=1}^{N_2}(w^Tx_i-\bar{z_2})(w^Tx_i-\bar{z_2})^T$
类间差距： $(\bar{z}_1-\bar{z}_2)^2$
类内方差： $S_1 + S_2$
由于线性判别分析的目标是同一类别内方差小，不同类别之间距离大，因此损失函数定义为：

$\frac{(\bar{z}_1-\bar{z}_2)^2}{s_1+s_2} = \frac{w^T(\bar{x}_{c_1}-\bar{x}_{c_2})(\bar{x}_{c_1}-\bar{x}_{c_2})^Tw}{w^T(s_{c_1}+s_{c_2})w}\\ \;\;\; \hat{w} = argmax_w\;J(w)$
记： $S_b = (\bar{x}_{c_1}-\bar{x}_{c_2})(\bar{x}_{c_1}-\bar{x}_{c_2})^T,\;S_w = (s_{c_1}+s_{c_2})$ ，因此 $\frac{w^TS_bw}{w^TS_ww}$
让J(w)对w求导等于0，求出： $S_w^{-1}(\bar{x}_{c_1}-\bar{x}_{c_2})$

与逻辑回归参数估计的异同（题3）

判别模型与生成模型
判别模型仅用判别那一类概率最大，生成模型要计算模型的概率分布
两者形式相似，均是将分类问题转化成了自变量的线性表达。
LDA是假设正态同方差，然后通过计算均值协方差，带入判别式；逻辑回归则是通过极大似然估计估计参数
LDA是生成模型，逻辑回归是判别模型

朴素贝叶斯

在线性判别分析中，我们假设每种分类类别下的特征遵循同一个协方差矩阵，每两个特征之间是存在协方差的，因此在线性判别分析中各种特征是不是独立的。但是，朴素贝叶斯算法对线性判别分析作进一步的模型简化，它将线性判别分析中的协方差矩阵中的协方差全部变成0，只保留各自特征的方差，也就是朴素贝叶斯假设各个特征不相关。

决策树（题2）

决策树回归树的区别在于选择分割点的指标不再是均方误差。
而对于离散变量不适合用均方误差作为分割节点（均方误差收敛速度非常慢）

步骤：
- 选择最优切分特征j以及该特征上的最优点s：遍历特征j以及固定j后遍历切分点s，选择使得基尼系数或者交叉熵最小的(j,s)
- 按照(j,s)分裂特征空间，每个区域内的类别为该区域内样本比例最多的类别
- 继续调用步骤1，2直到满足停止条件，就是每个区域的样本数小于等于5
- 将特征空间划分为J个不同的区域，生成分类树。

决策树指标包括分类错误率、信息增益和GINI系数

分类错误率

此区域内的训练集中非常见类所占的类别，即
$1-max_k(\hat{p}_{mk})$

GINI系数

$\sum\limits_{k=1}^{K} \hat{p}_{mk}(1-\hat{p}_{mk})$
gini系数取值小，那就意味着某个节点包含的观测值几乎来自同一个类别。

CART：用GINI系数作为指标的分类树

交叉熵

$-\sum\limits_{k=1}^{K} \hat{p}_{mk}log\;\hat{p}_{mk}$

支持向量机（SVM）

线性SVM（题4）

找到最大间隔超平面，即找到一个分割平面距离最近的观测点最远。

推导：
根据距离超平米那最近的点，只要同时缩放w和b可以得到： $w^Tx_1 + b = 1$ 与 $w^Tx_2+b = -1$ ，
因此：
$\begin{array}{l} w^{T} x_{1}+b=1 \\ w^{T} x_{2}+b=-1 \\ \left(w^{T} x_{1}+b\right)-\left(w^{T} x_{2}+b\right)=2 \\ w^{T}\left(x_{1}-x_{2}\right)=2 \\ \qquad \begin{array}{l} w^{T}\left(x_{1}-x_{2}\right)=\|w\|_{2}\left\|x_{1}-x_{2}\right\|_{2} \cos \theta=2 \\ \left\|x_{1}-x_{2}\right\|_{2} \cos \theta=\frac{2}{\|w\|_{2}} \end{array} \\ \qquad \begin{array}{l} d_{1}=d_{2}=\frac{\left\|x_{1}-x_{2}\right\|_{2} \cos \theta}{2}=\frac{\frac{2}{\|w\|_{2}}}{2}=\frac{1}{\|w\|_{2}} \\ d_{1}+d_{2}=\frac{2}{\|w\|_{2}} \end{array} \end{array}$
由此可知道SVM模型的具体形式：
$\begin{aligned} \min _{w, b} & \frac{1}{2}\|w\|^{2} \\ \text { s.t. } & y^{(i)}\left(w^{T} x^{(i)}+b\right) \geq 1, \quad i=1, \ldots, n \end{aligned}$
可以将约束条件写为: $g_{i}(w)=-y^{(i)}\left(w^{T}x^{(i)}+b\right)+1 \leq 0$
可以将优化问题拉格朗日化
$\mathcal{L}(w, b, \alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{n} \alpha_{i}\left[y^{(i)}\left(w^{T} x^{(i)}+b\right)-1\right]$
因此：
$\mathcal{L}(w, b, \alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{n} \alpha_{i}\left[y^{(i)}\left(w^{T} x^{(i)}+b\right)-1\right]$
欲构造 dual 问题, 首先求拉格朗日化的问题中 $\mathrm{w} $ 和 $\mathrm{b} $ 的值, 对 $ \mathrm{w}$ 求梯度, 令梯度为 0, 可求得 w:
对 b 求梯度, 令梯度为 0, 可得：
$\frac{\partial}{\partial b} \mathcal{L}(w, b, \alpha)=\sum_{i=1}^{n} \alpha_{i} y^{(i)}=0$

将 $\mathrm{w}$ 带入拉格朗日化的原问题可得
$\begin{array}{l} \mathcal{L}(w, b, \alpha)=\sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} y^{(i)} y^{(j)} \alpha_{i} \alpha_{j}\left(x^{(i)}\right)^{T} x^{(j)}-b \sum_{i=1}^{n} \alpha_{i} y^{(i)} \\ \mathcal{L}(w, b, \alpha)=\sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} y^{(i)} y^{(j)} \alpha_{i} \alpha_{j}\left(x^{(i)}\right)^{T} x^{(j)} \end{array}$
因此：
$\begin{aligned} &\text { 对拉格朗日化的原问题求最小值, 得到了 } \mathrm{w} \text { , 现在可以构造 dual 问題 }\\ &\begin{aligned} \max _{\alpha} & W(\alpha)=\sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} y^{(i)} y^{(j)} \alpha_{i} \alpha_{j}\left\langle x^{(i)}, x^{(j)}\right\rangle \\ \text { s.t. } & \alpha_{i} \geq 0, \quad i=1, \ldots, n \\ & \sum_{i=1}^{n} \alpha_{i} y^{(i)}=0 \end{aligned}\\ &\text { 可以推导出 b的值为: } b^{*}=-\frac{\max _{i: y^{(i)}=-1} w^{* T} x^{(i)}+\min _{i: y^{(i)}=1} w^{* T} x^{(i)}}{2}\\ &\begin{array}{r} \text { SVM的决策子如下,值的符号为类别. } \\ \qquad w^{T} x+b=\left(\sum_{i=1}^{n} \alpha_{i} y^{(i)} x^{(i)}\right)^{T} x+b=\sum_{i=1}^{n} \alpha_{i} y^{(i)}\left\langle x^{(i)}, x\right\rangle+b \end{array} \end{aligned}$

非线性SVM

数据分割不再是一个平面=>将原始数据投影到高维空间=>线性可分

核函数：假设 $\phi$ 是一个从低维的输入空间 $\chi$ （欧式空间的子集或者离散集合）到高维的希尔伯特空间的 $\mathcal{H}$ 映射。那么如果存在函数 $K (x, z)$ ，对于任意 $\in \chi$ ，都有： $\phi(x) \bullet \phi(z)$ 那么我们就称 $K (x, z)$ 为核函数。

多项式核函数（Polynomial Kernel）
$K\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=\left(\left\langle\mathbf{x}_{i}, \mathbf{x}_{j}\right\rangle+c\right)^{d}$
C用来控制低阶项的强度，C=0,d=1代表无核函数。
高斯核函数（Gaussian Kernel）
在SVM中也称为径向基核函数（Radial Basis Function,RBF），它是libsvm的默认核函数。
$K\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=\exp \left(-\frac{\left\|\mathbf{x}_{i}-\mathbf{x}_{j}\right\|_{2}^{2}}{2 \sigma^{2}}\right)$
使用高斯核函数之前需要将特征标准化，因此这里衡量的是样本之间的相似度。
Sigmoid核函数（Sigmoid Kernel）
$K\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=\tanh \left(\alpha \mathbf{x}_{i}^{\top} \mathbf{x}_{j}+c\right)$
此时的SVM相当于没有隐藏层的简单神经网络。
余弦相似度核
$K\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=\frac{\mathbf{x}_{i}^{\top} \mathbf{x}_{j}}{\left\|\mathbf{x}_{i}\right\|\left\|\mathbf{x}_{j}\right\|}$
常用于衡量两段文字的相似度