损失函数理论基础

最新推荐文章于 2022-10-16 11:16:19 发布

blue-bridge

最新推荐文章于 2022-10-16 11:16:19 发布

阅读量271

点赞数

文章标签：概率论机器学习

本文链接：https://blog.csdn.net/chentao2001/article/details/120447867

版权

极大似然

主要思想：给定数据D（可能是一个映射input->output），模型中哪些参数W最有可能产生这种数据D（可能指input在W的作用下生成output的概率 $P (o u t p u t ∣ i n p u t; W)$ ) ？->希望参数W代表最大化的 $P (W ∣ D)$ ->贝叶斯定理：
$P(W|D)=\frac{P(D|W)P(W)}{P(D)}=\frac{Likelihood\times Prior}{normalizing\ constant}\\ P(D)是标准化常量；我们认为所有W的概率都是相等的（先验平坦），故将P(W)视为常数\\ max\ P(W|D)=max\ P(D|W) \\ \implies Maximum\ Likelihood（极大似然）\\ 通俗的讲，实际存在各种参数W，每种参数的概率都是一样的：P(W)\\ 由参数W产生数据D的概率是已知的：P(D|W)\\ 于是数据D的概率也是“已知”的：\sum_{}^{} (P(D|W)P(W))\\ 对于数据D，可以由多个W生成，每个W各具产生数据D的“贡献度”：P(W|D) \\ 现在已知D，要求具有能够产生数据D的最大可能性的参数W，即“最大贡献度”max\ P(W|D)\\$
举例（高斯分布）
1. 高斯分布
  $p(x|\mu,\sigma)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
2. 假设N个数据点独立同分布，则数据的似然函数为
  $L=\prod_{i=1}^np(x^{(i)})=\frac{1}{\sqrt{2\pi\sigma^2}^N}\prod_{i=1}^Ne^{-\frac{(x^{(i)}-\mu)^2}{2\sigma^2}}$
3. 选择参数，最大化似然函数，即选择最大化生成这些数据可能性的参数->最小化负对数似然
  $\begin{aligned} (\mu,\sigma)&=\argmax_{\mu,\sigma} \ln\prod_{i=1}^Np(x^{(i)})\\ &=\argmin_{\mu,\sigma}-\ln\prod_{i=1}^Np(x^{(i)})\\ &=\argmin_{\mu,\sigma} -\sum_{i=1}^{N} \ln p(x^{(i)})\\ &=\argmin_{\mu,\sigma} -\sum_{i=1}^{N} (-\ln \sqrt{2\pi\sigma^2}+(-\frac{(x^{(i)}-\mu)^2}{2\sigma^2}))\\ &=\argmin_{\mu,\sigma} \sum_{i=1}^{N} \frac{(x^{(i)}-\mu)^2}{2\sigma^2}+N\ln\sqrt{2\pi\sigma^2} \end{aligned}$
术语
1. L：似然函数
2. ln L：对数似然函数
3. -ln L：负对数似然函数（也称为误差）

误差平方和SSE

似然函数
$L=\prod_{i=1}^{N}p(x^{(i)},y^{(i)})=\prod_{i=1}^{N}p(y^{(i)}|x^{(i)})p(x^{(i)})\\ 其中，y为输出，x为输入$
负对数似然
$-\ln L=-\sum_{i=1}^{N}(\ln p(y^{(i)}|x^{(i)})+\ln p(x^{(i)}))\\ 由于是对从x到y的映射建模，所以第二项与参数无关，可以忽略$
极大似然与线性回归
1. 输入输出为线性函数关系： $y^{(i)}=f(\mathbf{x}^{(i)};\mathbf{w})+\epsilon^{(i)}$ ，其中 $\epsilon^{(i)}$ 为误差项（未建模效应的捕获，随机噪声），服从均值为0，误差为 $\sigma^2$ （与 $\mathbf{w}$ 无关的值）的高斯分布，且独立同分布，则：
  $p(\epsilon^{(i)})=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(\epsilon^{(i)})^2}{2\sigma^2}}\\ p(y^{(i)}-f(\mathbf{x}^{(i)};\mathbf{w}))=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y^{(i)}-f(\mathbf{x}^{(i)};\mathbf{w}))^2}{2\sigma^2}}\\ p(y^{(i)}|\mathbf{x}^{(i)};\mathbf{w})=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y^{(i)}-f(\mathbf{x}^{(i)};\mathbf{w}))^2}{2\sigma^2}}$
2. 由上式可得给定 $\mathbf{x}^{(i)}$ 以 $\mathbf{w}$ 为参数结果为 $y^{(i)}$ 的概率服从高斯分布-> $y^{(i)}|\mathbf{x}^{(i)};\mathbf{w}\sim N(f(\mathbf{x}^{(i)};\mathbf{w}),\sigma^2)$
3. 所有数据上的似然函数为：
  $L=\prod_{i=1}^Np(y^{(i)}|\mathbf{x}^{(i)};\mathbf{w})=\frac{1}{\sqrt{2\pi\sigma^2}^N}\prod_{i=1}^Ne^{-\frac{(y^{(i)}-f(\mathbf{x}^{(i)};\mathbf{w}))^2}{2\sigma^2}}\\$
4. 负对数似然函数或误差为：
  $\begin{aligned} E&=-\ln \frac{1}{\sqrt{2\pi\sigma^2}^N}\prod_{i=1}^{N}e^{-\frac{(y^{(i)}-f(\mathbf{x}^{(i)};\mathbf{w}))^2}{2\sigma^2}}\\ &=\frac{1}{2\sigma^2}\sum_{i=1}^{N} (y^{(i)}-f(\mathbf{x}^{(i)};\mathbf{w}))^2+\ln(\sqrt{2\pi\sigma^2}^N)\\ &第二项和\frac{1}{2\sigma^2}可以去掉 \implies \sum_{i=1}^{N} (y^{(i)}-f(\mathbf{x}^{(i)};\mathbf{w}))^2\\ \end{aligned}$

交叉熵

二分类–逻辑回归
1. 似然函数（假设数据服从伯努利分布（高斯分布也行，结果类似上文））
  $假设一个样本输出类别1的概率为\hat{y}^{(i)}，则输出类别2的概率为1-\hat{y}^{(i)}\\ 令y^{(i)}=1代表类别1，y^{(i)}=0代表类别2，则所有数据的似然函数为\\ L=\prod_{i=1}^{N} p(y^{(i)}|\mathbf{x}^{(i)};\mathbf{w}) =\prod_{i=1}^{N} (\hat{y}^{(i)})^{y^{(i)}}(1-\hat{y}^{(i)})^{(1-y^{(i)})}$
2. 负对数似然（交叉熵出现）
  $\begin{aligned} -\ln L&=-\ln \prod_{i=1}^{N} (\hat{y}^{(i)})^{y^{(i)}}(1-\hat{y}^{(i)})^{(1-y^{(i)})}\\ & =-\sum_{i=1}^{N} \ln ((\hat{y}^{(i)})^{y^{(i)}}(1-\hat{y}^{(i)})^{(1-y^{(i)})})\\ &=-\sum_{i=1}^{N} y^{(i)}\ln ((\hat{y}^{(i)})+{(1-y^{(i)})}\ln(1-\hat{y}^{(i)}))\\ \end{aligned}$
多分类–Softmax
1. 似然函数
  $L=\prod_{i=1}^{N}p(y^{(i)}|\mathbf{x}^{(i)};\mathbf{w})=\prod_{i=1}^{N}\prod_{j=1}^{C}(\hat{y}_j^{(i)})^{y_i^{(i)}}\\ 其中C为类别数$
2. 负对数似然
  $\begin{aligned} -\ln L&=-\ln\prod_{i=1}^{N}p(y^{(i)}|\mathbf{x}^{(i)};\mathbf{w})=-\ln\prod_{i=1}^{N}\prod_{j=1}^{C}(\hat{y}_j^{(i)})^{y_i^{(i)}}\\ &=-\sum_{i=1}^{N}\sum_{j=1}^{C}{y_i^{(i)}}\ln \hat{y}_j^{(i)} \end{aligned}$