训练神经网络解决二分类问题的原理

最新推荐文章于 2023-02-03 09:45:38 发布

Remote Sensing

最新推荐文章于 2023-02-03 09:45:38 发布

阅读量902

点赞数

分类专栏：机器学习文章标签：神经网络分类机器学习

本文链接：https://blog.csdn.net/RSstudent/article/details/126015264

版权

机器学习专栏收录该内容

29 篇文章 7 订阅

订阅专栏

昨日训练一个二分类的神经网络，最后一层忘记加sigmoid，发现自己一直做回归的任务，对分类这块还真不太熟练，因此写下这篇博文作为回顾。

定义

KL散度

KL散度是机器学习中常用的一个指标，用于衡量两个概率分布之间的距离，其必须拥有相同的支集，定义为 $KL(P||Q)=\mathbb{E}_{x\sim P}[log \frac{P(x)}{Q(x)}]$ 。

交叉熵

交叉熵定义为： $H[P,Q]=H[P]+KL(P||Q)=-\mathbb{E}_{x \sim P}logQ(x)$

最大似然估计

学习的基本原则就是最大似然估计，学习的其实是概率分布 $p_{model}(x;\theta)$ ，记数据为 $X=\{x_1, x_2, \cdots, x_n\}$ ,则最大似然估计表示为：
$\theta = \argmax p_{model}(X;\theta)$
从贝叶斯的角度考虑，这等价于均匀先验下的最大后验估计。将上式改写为对数似然的形式，是：
$\theta = \argmax \sum_{i=1}^{n}logp_{model}(x_i;\theta)$
在等式前乘以常数的行为并不影响最大化过程，因此：

$\theta = \argmax \frac{1}{n}\sum_{i=1}^{n}logp_{model}(x_i;\theta)$
这等价于：
$\theta = \argmax \mathbb{E}_{x\sim \hat{p}_{data}}logp_{model}(x_i;\theta)$
与交叉熵的公式对比，会发现最大似然估计实际上在最小化交叉熵。进一步的，最小化了KL散度，也就是：

$\theta = \argmin \mathbb{E}_{x\sim \hat{p}_{data}}[-logp_{model}(x_i;\theta)data+\hat{p}_{data}(x;\theta)]$
这是由于第二项与 $\theta$ 无关，在最小化的过程中可以忽略。

二分类问题

对于二分类问题，我们实际上在最小化数据经验分布和伯努利分布之间的交叉熵，也就是
$p_{model}(x;\theta)=\theta^x(1-\theta)^{1-x}, x\in\{0,1\}, \theta \in [0,1]$
则最小化交叉熵表示为：
$\theta = \argmax \mathbb{E}_{x\sim \hat{p}_{data}}[xlog\theta+(1-x)log(1-\theta)]\\ =argmax \frac{1}{n}\sum_{i=1}^{n}[x_ilog\theta+(1-x_i)log(1-\theta)]$

神经网络在这里起到的作用实际上是提供参数 $\theta$ ,也就是 $\theta = f(x;w)$
因此，我们对于二分类问题，实际的优化是：
$\theta = \argmax \frac{1}{n}\sum_{i=1}^{n}[x_ilogf(x;w)+(1-x_i)log(1-f(x;w))]$

伯努利分布中的参数 $\theta$ 代表的含义是 $x = 1$ 的概率，因此是一个介于 $(0, 1)$ 之间的数字。因此，在设计神经网络结构的时候，需要在最后加上一个sigmoid激活函数，使神经网络的输出值归一化。而在损失函数的选择上，我们选择所谓的交叉熵。实际上，回归问题的损失函数也是交叉熵，只不过可以推导出均方损失。