高级机器学习附加题

最新推荐文章于 2024-09-15 17:22:56 发布

RazorX7

最新推荐文章于 2024-09-15 17:22:56 发布

阅读量228

点赞数

分类专栏：机器学习文章标签：人工智能机器学习算法信息熵深度学习

本文链接：https://blog.csdn.net/qq_37985843/article/details/119684532

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

高级机器学习附加题

文章目录

高级机器学习附加题

1. [10pts] Multi-Class Logistic Regression

教材的章节3.3 介绍了对数几率回归解决二分类问题的具体做法。假定现在的任务不再是二分类问题，而是多分类问题，其中 $y\in \{1,2,...,K\}$ 。请将对数几率回归算法拓展到该多分类问题。

[5pts] 给出该对率回归模型的“对数似然”(log-likelihood)。
[5pts]计算出该“对数似然”的梯度。

Solution

(1) [15pts] $\bm{x}$ 有 $K$ 个标签，总共的标签数为 $K$ ，那么所有的标签组合一共有 $2^K$ 种，因为这 $K$ 种标签之间的关系是独立的，我们可以对其中的一个标签 $y_i(i=1,2,...,K)$ 进行分析。由已知 $y_i\in\{0,1\}$ ，可以知道对于每一个标签而言，都是一个二分类问题，我们可以建立 $y_i$ 与 $x$ 的对数几率函数： $y_i=\frac{1}{1+e^{-z_i}},$
因此，我们可以得到： $\ln{\frac{p(y_i=1|\bm{x})}{p(y_i=0|\bm{x})}}=\bm{w_i}^T\bm{x}+b_i,$
显然有：
$p(y_i=1|\bm{x})=\frac{e^{\bm{w_i}^T\bm{x}+b_i}}{1+e^{\bm{w_i}^T\bm{x}+b_i}},$
$p(y_i=0|\bm{x})=\frac{1}{1+e^{\bm{w_i}^T\bm{x}+b_i}}$
同时我们可以构建矩阵 $\bm{y}$ 、矩阵 $\bm{W}$ 和矩阵 $\bm{b}$ :
$\bm{y}=\begin{pmatrix} y_1 \\ y_2 \\ ...\\y_K \end{pmatrix},\ \ \bm{W}=\begin{pmatrix} \bm{w}_1,\bm{w}_2, ...\bm{w}_K \end{pmatrix}\ \ \bm{b}=\begin{pmatrix} b_1 \\ b_2 \\ ...\\b_K \end{pmatrix}$
$\bm{y}$ 的预测值 $\bm{z}=\bm{W}^T\bm{x}+\bm{b}$ ,
该对率回归模型的“对数似然”为：
$\begin{aligned} \ell(\bm{W},\bm{b})&=\sum_{i=1}^{m}\ln{p(\bm{y}_i|\bm{x}_i)}\\ &=\sum_{i=1}^{m}\ln{\prod_{j=1}^{K}p(y_{ij}|\bm{x}_i)}\\ &=\sum_{i=1}^{m}\sum_{j=1}^{K}\ln{p(y_{ij}|\bm{x}_i)}\\ &=\sum_{i=1}^{m}\sum_{j=1}^{K}(y_{ij}(\bm{w}_j^T\bm{x}_i+b_j)-ln(1+e^{\bm{w}_j^T\bm{x}_i+b_j})) \end{aligned}$

(2) [10pts]
令 $\bm{\beta_j}=(\bm{w}_j;b_j),\ \bm{\hat{x}}=(x;1),\ \bm{\beta}=(\bm{W},\bm{b})$ ，
从而可以将原式化为：
$\ell(\bm{\beta})=\sum_{i=1}^{m}\sum_{j=1}^{K}(y_{ij}\bm{\beta_j}^T\bm{\hat{x_i}}-ln(1+e^{\bm{\beta_j}^T\bm{\hat{x_i}}}))$
该对数似然的梯度计算如下：
$\begin{aligned} \ell(\bm{\beta})&=\sum_{i=1}^{m}\big[(y_{ij}\bm{\beta_j}^T\bm{\hat{x_i}}-ln(1+e^{\bm{\beta_j}^T\bm{\hat{x_i}}}))+\sum_{k=1}^{j-1}(y_{ik}\bm{\beta_k}^T\bm{\hat{x_i}}-ln(1+e^{\bm{\beta_k}^T\bm{\hat{x_i}}}))\\ &+\sum_{k=j+1}^{K}(y_{ik}\bm{\beta_k}^T\bm{\hat{x_i}}-ln(1+e^{\bm{\beta_k}^T\bm{\hat{x_i}}}))\big] \end{aligned}$
因此：
$\begin{aligned} \frac{\partial{\ell(\bm{\beta})}}{\partial\bm{\beta_j}}&=\frac{\partial(\sum_{i=1}^{m}\big[(y_{ij}\bm{\beta_j}^T\bm{\hat{x_i}}-ln(1+e^{\bm{\beta_j}^T\bm{\hat{x_i}}}))+C\big])}{\partial\bm{\beta_j}}\\ &=\sum_{i=1}^{m}(y_{ij}\bm{\hat{x_i}}-\frac{\bm{\hat{x_i}}e^{\bm{\beta_j}^T\bm{\hat{x_i}}}}{1+e^{\bm{\beta_j}^T\bm{\hat{x_i}}}})\\ &=\sum_{i=1}^{m}(y_{ij}\bm{\hat{x_i}}-p(y_{ij}=1|\bm{\hat{x_i}})\bm{\hat{x_i}})\\ &=\sum_{i=1}^{m}(\bm{\hat{x_i}}(y_{ij}-p(y_{ij}=1|\bm{\hat{x_i}}))) \end{aligned}$
梯度如下：
$\nabla\ell(\beta_1,\beta_2,...,\beta_K)=(\,\frac{\partial{\ell(\bm{\beta})}}{\beta_1},\frac{\partial{\ell(\bm{\beta})}}{\beta_2},...,\frac{\partial{\ell(\bm{\beta})}}{\beta_K}).$

2. [10pts] 性能度量

我们有一些样本。我们希望将它们分为两类中的一个（0或1）。对于每个样本，分类器会给出一个分数（分数越接近于0，则分类器认为其为类0，分数越接近1则分类器认为其为类1）。以下是两个分类器对8个样本的给分( $y_{C1}, y_{C2}$ )和每个样本的真实标记( $y$ )。

$y$	1	0	1	1	1	0	0	0
$y_{C1}$	0.7	0.4	0.3	0.9	0.45	0.6	0.5	0.2
$y_{C2}$	0.9	0.1	0.7	0.3	0.6	0.2	0.1	0.8

[5pts]请计算两个分类器的AUC (area under the ROC curve)。
[5pts] 令分类器 $C_1$ 的划分阈值为0.33 (当 $y_{C1}>0.33$ 时其被视为正类，否则为负类)。据此计算分类器 $C_1$ 的混淆矩阵和 $F_1$ 。相似地令分类器 $C_2$ 的划分阈值为0.5。据此计算分类器 $C_2$ 的混淆矩阵和 $F_1$ 。

solution

(1) “损失” $\ell_{rank}=\frac{1}{m^+m^-}\sum_{x^+}\sum_{x^-}(I(f(x^+)<f(x^-))+\frac{1}{2}I(f(x^+)=f(x^-)))$
对于分类器1: $\frac{\sum_{x^+}rank(x^+)\frac{m^+*(m^++1)}{2}}{m^+m^-}=\frac{8+7+4+2-\frac{4*5}{2}}{4*4}=\frac{11}{16}=0.6875$

对于分类器2: $\frac{\sum_{x^+}rank(x^+)\frac{m^+*(m^++1)}{2}}{m^+m^-}=\frac{8+6+5+4-\frac{4*5}{2}}{4*4}=\frac{13}{16}=0.8125$

(2) The class result by the new rules:

$y$	1	0	1	1	1	0	0	0
$y_{C1}$	1	1	0	1	1	1	1	0
$y_{C2}$	1	0	1	0	1	0	0	1

$F_{1}=\frac{2*P*R}{P+R}$
$P=\frac{TP}{TP+FP}$
$R=\frac{TP}{TP+FN}$
Among them: $F_{1}$ is the F-Measure. $P$ is the precision. $R$ is the recall.

The confusion matrix of classifier 1 and $F_{1}1$ .

	Prediction
Reality		Truth	False	Total
	Truth	3	1	4
	False	3	1	4

The confusion matrix of classifier 2 and $F_{1}2$ .

	Prediction
Reality		Truth	False	Total
	Truth	3	1	4
	False	1	3	4

So,
$\begin{aligned} F_{1}1&=\frac{2*P_{1}*R_{1}}{P_{1}+R_{1}} &=\frac{2*\frac{3}{3+3}*\frac{3}{3+1}}{\frac{3}{3+3}+\frac{3}{3+1}} &=\frac{2*\frac{1}{2}*\frac{3}{4}}{\frac{5}{4}} &=\frac{3}{5} \end{aligned}$
$\begin{aligned} F_{1}2&=\frac{2*P_{2}*R_{2}}{P_{2}+R_{2}} &=\frac{2*\frac{1}{3+1}*\frac{1}{3+1}}{\frac{3}{3+1}+\frac{3}{3+1}} &=\frac{2*\frac{3}{4}*\frac{3}{4}}{\frac{3}{4}+\frac{3}{4}} &=\frac{3}{4} \end{aligned}$

3. [15pts] 信息熵

试证明

$Ent(D)=-\sum_{k=1}^{\vert \mathcal{Y} \vert}p_k\log_2 p_k \leq \log_2\vert \mathcal{Y}\vert$

并给出等号成立的条件。

提示：可以利用琴生不等式(Jensen Inequality)。

solution

令
$H(P)=-\sum_{k=1}^{|\mathcal{Y}|}p_k\log_2p_k, (\sum_{k=1}^{|\mathcal{Y}|}=1, 0<p_k<1)$

$f(p)=-p\log_2 p (0<p<1)$

因为 $f''(p)=-\frac{1}{pln2}<0 在(0<p<1)上恒成立$ ，因此 $f (p)$ 在(0,1)上为凸函数。

所以根据Jensen Inequality：

$-\frac{\sum_{k=1}^{|\mathcal{Y}|}p_k\log_2p_k}{|\mathcal{Y}|} \leq f(\frac{\sum_{k=1}^{|\mathcal{Y}|}p_k}{|\mathcal{Y}|})=-\frac{\sum_{k=1}^{|\mathcal{Y}|}p_k}{|\mathcal{Y}|}\log_2 \frac{\sum_{k=1}^{|\mathcal{Y}|}p_k}{|\mathcal{Y}|} = -\frac{1}{|\mathcal{Y}|}log_2\frac{1}{|\mathcal{Y}|}=\frac{1}{|\mathcal{Y}|}log_2|\mathcal{Y}|$