损失函数理论基础

极大似然
  1. 主要思想:给定数据D(可能是一个映射input->output),模型中哪些参数W最有可能产生这种数据D(可能指input在W的作用下生成output的概率 P ( o u t p u t ∣ i n p u t ; W ) P(output|input;W) P(outputinput;W)) ?->希望参数W代表最大化的 P ( W ∣ D ) P(W|D) P(WD)->贝叶斯定理:
    P ( W ∣ D ) = P ( D ∣ W ) P ( W ) P ( D ) = L i k e l i h o o d × P r i o r n o r m a l i z i n g   c o n s t a n t P ( D ) 是 标 准 化 常 量 ; 我 们 认 为 所 有 W 的 概 率 都 是 相 等 的 ( 先 验 平 坦 ) , 故 将 P ( W ) 视 为 常 数 m a x   P ( W ∣ D ) = m a x   P ( D ∣ W )    ⟹    M a x i m u m   L i k e l i h o o d ( 极 大 似 然 ) 通 俗 的 讲 , 实 际 存 在 各 种 参 数 W , 每 种 参 数 的 概 率 都 是 一 样 的 : P ( W ) 由 参 数 W 产 生 数 据 D 的 概 率 是 已 知 的 : P ( D ∣ W ) 于 是 数 据 D 的 概 率 也 是 “ 已 知 ” 的 : ∑ ( P ( D ∣ W ) P ( W ) ) 对 于 数 据 D , 可 以 由 多 个 W 生 成 , 每 个 W 各 具 产 生 数 据 D 的 “ 贡 献 度 ” : P ( W ∣ D ) 现 在 已 知 D , 要 求 具 有 能 够 产 生 数 据 D 的 最 大 可 能 性 的 参 数 W , 即 “ 最 大 贡 献 度 ” m a x   P ( W ∣ D ) P(W|D)=\frac{P(D|W)P(W)}{P(D)}=\frac{Likelihood\times Prior}{normalizing\ constant}\\ P(D)是标准化常量;我们认为所有W的概率都是相等的(先验平坦),故将P(W)视为常数\\ max\ P(W|D)=max\ P(D|W) \\ \implies Maximum\ Likelihood(极大似然)\\ 通俗的讲,实际存在各种参数W,每种参数的概率都是一样的:P(W)\\ 由参数W产生数据D的概率是已知的:P(D|W)\\ 于是数据D的概率也是“已知”的:\sum_{}^{} (P(D|W)P(W))\\ 对于数据D,可以由多个W生成,每个W各具产生数据D的“贡献度”:P(W|D) \\ 现在已知D,要求具有能够产生数据D的最大可能性的参数W,即“最大贡献度”max\ P(W|D)\\ P(WD)=P(D)P(DW)P(W)=normalizing constantLikelihood×PriorP(D)WP(W)max P(WD)=max P(DW)Maximum LikelihoodWP(W)WDP(DW)D(P(DW)P(W))DWWDP(WD)DDWmax P(WD)
  2. 举例(高斯分布)
    在这里插入图片描述
    1. 高斯分布
      p ( x ∣ μ , σ ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 p(x|\mu,\sigma)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} p(xμ,σ)=2πσ2 1e2σ2(xμ)2
    2. 假设N个数据点独立同分布,则数据的似然函数为
      L = ∏ i = 1 n p ( x ( i ) ) = 1 2 π σ 2 N ∏ i = 1 N e − ( x ( i ) − μ ) 2 2 σ 2 L=\prod_{i=1}^np(x^{(i)})=\frac{1}{\sqrt{2\pi\sigma^2}^N}\prod_{i=1}^Ne^{-\frac{(x^{(i)}-\mu)^2}{2\sigma^2}} L=i=1np(x(i))=2πσ2 N1i=1Ne2σ2(x(i)μ)2
    3. 选择参数,最大化似然函数,即选择最大化生成这些数据可能性的参数->最小化负对数似然
      ( μ , σ ) = arg max ⁡ μ , σ ln ⁡ ∏ i = 1 N p ( x ( i ) ) = arg min ⁡ μ , σ − ln ⁡ ∏ i = 1 N p ( x ( i ) ) = arg min ⁡ μ , σ − ∑ i = 1 N ln ⁡ p ( x ( i ) ) = arg min ⁡ μ , σ − ∑ i = 1 N ( − ln ⁡ 2 π σ 2 + ( − ( x ( i ) − μ ) 2 2 σ 2 ) ) = arg min ⁡ μ , σ ∑ i = 1 N ( x ( i ) − μ ) 2 2 σ 2 + N ln ⁡ 2 π σ 2 \begin{aligned} (\mu,\sigma)&=\argmax_{\mu,\sigma} \ln\prod_{i=1}^Np(x^{(i)})\\ &=\argmin_{\mu,\sigma}-\ln\prod_{i=1}^Np(x^{(i)})\\ &=\argmin_{\mu,\sigma} -\sum_{i=1}^{N} \ln p(x^{(i)})\\ &=\argmin_{\mu,\sigma} -\sum_{i=1}^{N} (-\ln \sqrt{2\pi\sigma^2}+(-\frac{(x^{(i)}-\mu)^2}{2\sigma^2}))\\ &=\argmin_{\mu,\sigma} \sum_{i=1}^{N} \frac{(x^{(i)}-\mu)^2}{2\sigma^2}+N\ln\sqrt{2\pi\sigma^2} \end{aligned} (μ,σ)=μ,σargmaxlni=1Np(x(i))=μ,σargminlni=1Np(x(i))=μ,σargmini=1Nlnp(x(i))=μ,σargmini=1N(ln2πσ2 +(2σ2(x(i)μ)2))=μ,σargmini=1N2σ2(x(i)μ)2+Nln2πσ2
  3. 术语
    1. L:似然函数
    2. ln L:对数似然函数
    3. -ln L:负对数似然函数(也称为误差)
误差平方和SSE
  1. 似然函数
    L = ∏ i = 1 N p ( x ( i ) , y ( i ) ) = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ) p ( x ( i ) ) 其 中 , y 为 输 出 , x 为 输 入 L=\prod_{i=1}^{N}p(x^{(i)},y^{(i)})=\prod_{i=1}^{N}p(y^{(i)}|x^{(i)})p(x^{(i)})\\ 其中,y为输出,x为输入 L=i=1Np(x(i),y(i))=i=1Np(y(i)x(i))p(x(i))yx
  2. 负对数似然
    − ln ⁡ L = − ∑ i = 1 N ( ln ⁡ p ( y ( i ) ∣ x ( i ) ) + ln ⁡ p ( x ( i ) ) ) 由 于 是 对 从 x 到 y 的 映 射 建 模 , 所 以 第 二 项 与 参 数 无 关 , 可 以 忽 略 -\ln L=-\sum_{i=1}^{N}(\ln p(y^{(i)}|x^{(i)})+\ln p(x^{(i)}))\\ 由于是对从x到y的映射建模,所以第二项与参数无关,可以忽略 lnL=i=1N(lnp(y(i)x(i))+lnp(x(i)))xy
  3. 极大似然与线性回归
    在这里插入图片描述
    1. 输入输出为线性函数关系: y ( i ) = f ( x ( i ) ; w ) + ϵ ( i ) y^{(i)}=f(\mathbf{x}^{(i)};\mathbf{w})+\epsilon^{(i)} y(i)=f(x(i);w)+ϵ(i),其中 ϵ ( i ) \epsilon^{(i)} ϵ(i)为误差项(未建模效应的捕获,随机噪声),服从均值为0,误差为 σ 2 \sigma^2 σ2(与 w \mathbf{w} w无关的值)的高斯分布,且独立同分布,则:
      p ( ϵ ( i ) ) = 1 2 π σ 2 e − ( ϵ ( i ) ) 2 2 σ 2 p ( y ( i ) − f ( x ( i ) ; w ) ) = 1 2 π σ 2 e − ( y ( i ) − f ( x ( i ) ; w ) ) 2 2 σ 2 p ( y ( i ) ∣ x ( i ) ; w ) = 1 2 π σ 2 e − ( y ( i ) − f ( x ( i ) ; w ) ) 2 2 σ 2 p(\epsilon^{(i)})=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(\epsilon^{(i)})^2}{2\sigma^2}}\\ p(y^{(i)}-f(\mathbf{x}^{(i)};\mathbf{w}))=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y^{(i)}-f(\mathbf{x}^{(i)};\mathbf{w}))^2}{2\sigma^2}}\\ p(y^{(i)}|\mathbf{x}^{(i)};\mathbf{w})=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y^{(i)}-f(\mathbf{x}^{(i)};\mathbf{w}))^2}{2\sigma^2}} p(ϵ(i))=2πσ2 1e2σ2(ϵ(i))2p(y(i)f(x(i);w))=2πσ2 1e2σ2(y(i)f(x(i);w))2p(y(i)x(i);w)=2πσ2 1e2σ2(y(i)f(x(i);w))2
    2. 由上式可得给定 x ( i ) \mathbf{x}^{(i)} x(i) w \mathbf{w} w为参数结果为 y ( i ) y^{(i)} y(i)的概率服从高斯分布-> y ( i ) ∣ x ( i ) ; w ∼ N ( f ( x ( i ) ; w ) , σ 2 ) y^{(i)}|\mathbf{x}^{(i)};\mathbf{w}\sim N(f(\mathbf{x}^{(i)};\mathbf{w}),\sigma^2) y(i)x(i);wN(f(x(i);w),σ2)
    3. 所有数据上的似然函数为:
      L = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; w ) = 1 2 π σ 2 N ∏ i = 1 N e − ( y ( i ) − f ( x ( i ) ; w ) ) 2 2 σ 2 L=\prod_{i=1}^Np(y^{(i)}|\mathbf{x}^{(i)};\mathbf{w})=\frac{1}{\sqrt{2\pi\sigma^2}^N}\prod_{i=1}^Ne^{-\frac{(y^{(i)}-f(\mathbf{x}^{(i)};\mathbf{w}))^2}{2\sigma^2}}\\ L=i=1Np(y(i)x(i);w)=2πσ2 N1i=1Ne2σ2(y(i)f(x(i);w))2
    4. 负对数似然函数或误差为:
      E = − ln ⁡ 1 2 π σ 2 N ∏ i = 1 N e − ( y ( i ) − f ( x ( i ) ; w ) ) 2 2 σ 2 = 1 2 σ 2 ∑ i = 1 N ( y ( i ) − f ( x ( i ) ; w ) ) 2 + ln ⁡ ( 2 π σ 2 N ) 第 二 项 和 1 2 σ 2 可 以 去 掉    ⟹    ∑ i = 1 N ( y ( i ) − f ( x ( i ) ; w ) ) 2 \begin{aligned} E&=-\ln \frac{1}{\sqrt{2\pi\sigma^2}^N}\prod_{i=1}^{N}e^{-\frac{(y^{(i)}-f(\mathbf{x}^{(i)};\mathbf{w}))^2}{2\sigma^2}}\\ &=\frac{1}{2\sigma^2}\sum_{i=1}^{N} (y^{(i)}-f(\mathbf{x}^{(i)};\mathbf{w}))^2+\ln(\sqrt{2\pi\sigma^2}^N)\\ &第二项和\frac{1}{2\sigma^2}可以去掉 \implies \sum_{i=1}^{N} (y^{(i)}-f(\mathbf{x}^{(i)};\mathbf{w}))^2\\ \end{aligned} E=ln2πσ2 N1i=1Ne2σ2(y(i)f(x(i);w))2=2σ21i=1N(y(i)f(x(i);w))2+ln(2πσ2 N)2σ21i=1N(y(i)f(x(i);w))2
交叉熵
  1. 二分类–逻辑回归
    1. 似然函数(假设数据服从伯努利分布(高斯分布也行,结果类似上文))
      假 设 一 个 样 本 输 出 类 别 1 的 概 率 为 y ^ ( i ) , 则 输 出 类 别 2 的 概 率 为 1 − y ^ ( i ) 令 y ( i ) = 1 代 表 类 别 1 , y ( i ) = 0 代 表 类 别 2 , 则 所 有 数 据 的 似 然 函 数 为 L = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; w ) = ∏ i = 1 N ( y ^ ( i ) ) y ( i ) ( 1 − y ^ ( i ) ) ( 1 − y ( i ) ) 假设一个样本输出类别1的概率为\hat{y}^{(i)},则输出类别2的概率为1-\hat{y}^{(i)}\\ 令y^{(i)}=1代表类别1,y^{(i)}=0代表类别2,则所有数据的似然函数为\\ L=\prod_{i=1}^{N} p(y^{(i)}|\mathbf{x}^{(i)};\mathbf{w}) =\prod_{i=1}^{N} (\hat{y}^{(i)})^{y^{(i)}}(1-\hat{y}^{(i)})^{(1-y^{(i)})} 1y^(i)21y^(i)y(i)=11y(i)=02L=i=1Np(y(i)x(i);w)=i=1N(y^(i))y(i)(1y^(i))(1y(i))
    2. 负对数似然(交叉熵出现)
      − ln ⁡ L = − ln ⁡ ∏ i = 1 N ( y ^ ( i ) ) y ( i ) ( 1 − y ^ ( i ) ) ( 1 − y ( i ) ) = − ∑ i = 1 N ln ⁡ ( ( y ^ ( i ) ) y ( i ) ( 1 − y ^ ( i ) ) ( 1 − y ( i ) ) ) = − ∑ i = 1 N y ( i ) ln ⁡ ( ( y ^ ( i ) ) + ( 1 − y ( i ) ) ln ⁡ ( 1 − y ^ ( i ) ) ) \begin{aligned} -\ln L&=-\ln \prod_{i=1}^{N} (\hat{y}^{(i)})^{y^{(i)}}(1-\hat{y}^{(i)})^{(1-y^{(i)})}\\ & =-\sum_{i=1}^{N} \ln ((\hat{y}^{(i)})^{y^{(i)}}(1-\hat{y}^{(i)})^{(1-y^{(i)})})\\ &=-\sum_{i=1}^{N} y^{(i)}\ln ((\hat{y}^{(i)})+{(1-y^{(i)})}\ln(1-\hat{y}^{(i)}))\\ \end{aligned} lnL=lni=1N(y^(i))y(i)(1y^(i))(1y(i))=i=1Nln((y^(i))y(i)(1y^(i))(1y(i)))=i=1Ny(i)ln((y^(i))+(1y(i))ln(1y^(i)))
  2. 多分类–Softmax
    1. 似然函数
      L = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; w ) = ∏ i = 1 N ∏ j = 1 C ( y ^ j ( i ) ) y i ( i ) 其 中 C 为 类 别 数 L=\prod_{i=1}^{N}p(y^{(i)}|\mathbf{x}^{(i)};\mathbf{w})=\prod_{i=1}^{N}\prod_{j=1}^{C}(\hat{y}_j^{(i)})^{y_i^{(i)}}\\ 其中C为类别数 L=i=1Np(y(i)x(i);w)=i=1Nj=1C(y^j(i))yi(i)C
    2. 负对数似然
      − ln ⁡ L = − ln ⁡ ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; w ) = − ln ⁡ ∏ i = 1 N ∏ j = 1 C ( y ^ j ( i ) ) y i ( i ) = − ∑ i = 1 N ∑ j = 1 C y i ( i ) ln ⁡ y ^ j ( i ) \begin{aligned} -\ln L&=-\ln\prod_{i=1}^{N}p(y^{(i)}|\mathbf{x}^{(i)};\mathbf{w})=-\ln\prod_{i=1}^{N}\prod_{j=1}^{C}(\hat{y}_j^{(i)})^{y_i^{(i)}}\\ &=-\sum_{i=1}^{N}\sum_{j=1}^{C}{y_i^{(i)}}\ln \hat{y}_j^{(i)} \end{aligned} lnL=lni=1Np(y(i)x(i);w)=lni=1Nj=1C(y^j(i))yi(i)=i=1Nj=1Cyi(i)lny^j(i)

⋆ \star 最小化负对数似然实际上是最小化交叉熵损失

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值