极大似然
- 主要思想:给定数据D(可能是一个映射input->output),模型中哪些参数W最有可能产生这种数据D(可能指input在W的作用下生成output的概率
P
(
o
u
t
p
u
t
∣
i
n
p
u
t
;
W
)
P(output|input;W)
P(output∣input;W)) ?->希望参数W代表最大化的
P
(
W
∣
D
)
P(W|D)
P(W∣D)->贝叶斯定理:
P ( W ∣ D ) = P ( D ∣ W ) P ( W ) P ( D ) = L i k e l i h o o d × P r i o r n o r m a l i z i n g c o n s t a n t P ( D ) 是 标 准 化 常 量 ; 我 们 认 为 所 有 W 的 概 率 都 是 相 等 的 ( 先 验 平 坦 ) , 故 将 P ( W ) 视 为 常 数 m a x P ( W ∣ D ) = m a x P ( D ∣ W ) ⟹ M a x i m u m L i k e l i h o o d ( 极 大 似 然 ) 通 俗 的 讲 , 实 际 存 在 各 种 参 数 W , 每 种 参 数 的 概 率 都 是 一 样 的 : P ( W ) 由 参 数 W 产 生 数 据 D 的 概 率 是 已 知 的 : P ( D ∣ W ) 于 是 数 据 D 的 概 率 也 是 “ 已 知 ” 的 : ∑ ( P ( D ∣ W ) P ( W ) ) 对 于 数 据 D , 可 以 由 多 个 W 生 成 , 每 个 W 各 具 产 生 数 据 D 的 “ 贡 献 度 ” : P ( W ∣ D ) 现 在 已 知 D , 要 求 具 有 能 够 产 生 数 据 D 的 最 大 可 能 性 的 参 数 W , 即 “ 最 大 贡 献 度 ” m a x P ( W ∣ D ) P(W|D)=\frac{P(D|W)P(W)}{P(D)}=\frac{Likelihood\times Prior}{normalizing\ constant}\\ P(D)是标准化常量;我们认为所有W的概率都是相等的(先验平坦),故将P(W)视为常数\\ max\ P(W|D)=max\ P(D|W) \\ \implies Maximum\ Likelihood(极大似然)\\ 通俗的讲,实际存在各种参数W,每种参数的概率都是一样的:P(W)\\ 由参数W产生数据D的概率是已知的:P(D|W)\\ 于是数据D的概率也是“已知”的:\sum_{}^{} (P(D|W)P(W))\\ 对于数据D,可以由多个W生成,每个W各具产生数据D的“贡献度”:P(W|D) \\ 现在已知D,要求具有能够产生数据D的最大可能性的参数W,即“最大贡献度”max\ P(W|D)\\ P(W∣D)=P(D)P(D∣W)P(W)=normalizing constantLikelihood×PriorP(D)是标准化常量;我们认为所有W的概率都是相等的(先验平坦),故将P(W)视为常数max P(W∣D)=max P(D∣W)⟹Maximum Likelihood(极大似然)通俗的讲,实际存在各种参数W,每种参数的概率都是一样的:P(W)由参数W产生数据D的概率是已知的:P(D∣W)于是数据D的概率也是“已知”的:∑(P(D∣W)P(W))对于数据D,可以由多个W生成,每个W各具产生数据D的“贡献度”:P(W∣D)现在已知D,要求具有能够产生数据D的最大可能性的参数W,即“最大贡献度”max P(W∣D) - 举例(高斯分布)
- 高斯分布
p ( x ∣ μ , σ ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 p(x|\mu,\sigma)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} p(x∣μ,σ)=2πσ21e−2σ2(x−μ)2 - 假设N个数据点独立同分布,则数据的似然函数为
L = ∏ i = 1 n p ( x ( i ) ) = 1 2 π σ 2 N ∏ i = 1 N e − ( x ( i ) − μ ) 2 2 σ 2 L=\prod_{i=1}^np(x^{(i)})=\frac{1}{\sqrt{2\pi\sigma^2}^N}\prod_{i=1}^Ne^{-\frac{(x^{(i)}-\mu)^2}{2\sigma^2}} L=i=1∏np(x(i))=2πσ2N1i=1∏Ne−2σ2(x(i)−μ)2 - 选择参数,最大化似然函数,即选择最大化生成这些数据可能性的参数->最小化负对数似然
( μ , σ ) = arg max μ , σ ln ∏ i = 1 N p ( x ( i ) ) = arg min μ , σ − ln ∏ i = 1 N p ( x ( i ) ) = arg min μ , σ − ∑ i = 1 N ln p ( x ( i ) ) = arg min μ , σ − ∑ i = 1 N ( − ln 2 π σ 2 + ( − ( x ( i ) − μ ) 2 2 σ 2 ) ) = arg min μ , σ ∑ i = 1 N ( x ( i ) − μ ) 2 2 σ 2 + N ln 2 π σ 2 \begin{aligned} (\mu,\sigma)&=\argmax_{\mu,\sigma} \ln\prod_{i=1}^Np(x^{(i)})\\ &=\argmin_{\mu,\sigma}-\ln\prod_{i=1}^Np(x^{(i)})\\ &=\argmin_{\mu,\sigma} -\sum_{i=1}^{N} \ln p(x^{(i)})\\ &=\argmin_{\mu,\sigma} -\sum_{i=1}^{N} (-\ln \sqrt{2\pi\sigma^2}+(-\frac{(x^{(i)}-\mu)^2}{2\sigma^2}))\\ &=\argmin_{\mu,\sigma} \sum_{i=1}^{N} \frac{(x^{(i)}-\mu)^2}{2\sigma^2}+N\ln\sqrt{2\pi\sigma^2} \end{aligned} (μ,σ)=μ,σargmaxlni=1∏Np(x(i))=μ,σargmin−lni=1∏Np(x(i))=μ,σargmin−i=1∑Nlnp(x(i))=μ,σargmin−i=1∑N(−ln2πσ2+(−2σ2(x(i)−μ)2))=μ,σargmini=1∑N2σ2(x(i)−μ)2+Nln2πσ2
- 高斯分布
- 术语
- L:似然函数
- ln L:对数似然函数
- -ln L:负对数似然函数(也称为误差)
误差平方和SSE
- 似然函数
L = ∏ i = 1 N p ( x ( i ) , y ( i ) ) = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ) p ( x ( i ) ) 其 中 , y 为 输 出 , x 为 输 入 L=\prod_{i=1}^{N}p(x^{(i)},y^{(i)})=\prod_{i=1}^{N}p(y^{(i)}|x^{(i)})p(x^{(i)})\\ 其中,y为输出,x为输入 L=i=1∏Np(x(i),y(i))=i=1∏Np(y(i)∣x(i))p(x(i))其中,y为输出,x为输入 - 负对数似然
− ln L = − ∑ i = 1 N ( ln p ( y ( i ) ∣ x ( i ) ) + ln p ( x ( i ) ) ) 由 于 是 对 从 x 到 y 的 映 射 建 模 , 所 以 第 二 项 与 参 数 无 关 , 可 以 忽 略 -\ln L=-\sum_{i=1}^{N}(\ln p(y^{(i)}|x^{(i)})+\ln p(x^{(i)}))\\ 由于是对从x到y的映射建模,所以第二项与参数无关,可以忽略 −lnL=−i=1∑N(lnp(y(i)∣x(i))+lnp(x(i)))由于是对从x到y的映射建模,所以第二项与参数无关,可以忽略 - 极大似然与线性回归
- 输入输出为线性函数关系:
y
(
i
)
=
f
(
x
(
i
)
;
w
)
+
ϵ
(
i
)
y^{(i)}=f(\mathbf{x}^{(i)};\mathbf{w})+\epsilon^{(i)}
y(i)=f(x(i);w)+ϵ(i),其中
ϵ
(
i
)
\epsilon^{(i)}
ϵ(i)为误差项(未建模效应的捕获,随机噪声),服从均值为0,误差为
σ
2
\sigma^2
σ2(与
w
\mathbf{w}
w无关的值)的高斯分布,且独立同分布,则:
p ( ϵ ( i ) ) = 1 2 π σ 2 e − ( ϵ ( i ) ) 2 2 σ 2 p ( y ( i ) − f ( x ( i ) ; w ) ) = 1 2 π σ 2 e − ( y ( i ) − f ( x ( i ) ; w ) ) 2 2 σ 2 p ( y ( i ) ∣ x ( i ) ; w ) = 1 2 π σ 2 e − ( y ( i ) − f ( x ( i ) ; w ) ) 2 2 σ 2 p(\epsilon^{(i)})=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(\epsilon^{(i)})^2}{2\sigma^2}}\\ p(y^{(i)}-f(\mathbf{x}^{(i)};\mathbf{w}))=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y^{(i)}-f(\mathbf{x}^{(i)};\mathbf{w}))^2}{2\sigma^2}}\\ p(y^{(i)}|\mathbf{x}^{(i)};\mathbf{w})=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y^{(i)}-f(\mathbf{x}^{(i)};\mathbf{w}))^2}{2\sigma^2}} p(ϵ(i))=2πσ21e−2σ2(ϵ(i))2p(y(i)−f(x(i);w))=2πσ21e−2σ2(y(i)−f(x(i);w))2p(y(i)∣x(i);w)=2πσ21e−2σ2(y(i)−f(x(i);w))2 - 由上式可得给定 x ( i ) \mathbf{x}^{(i)} x(i)以 w \mathbf{w} w为参数结果为 y ( i ) y^{(i)} y(i)的概率服从高斯分布-> y ( i ) ∣ x ( i ) ; w ∼ N ( f ( x ( i ) ; w ) , σ 2 ) y^{(i)}|\mathbf{x}^{(i)};\mathbf{w}\sim N(f(\mathbf{x}^{(i)};\mathbf{w}),\sigma^2) y(i)∣x(i);w∼N(f(x(i);w),σ2)
- 所有数据上的似然函数为:
L = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; w ) = 1 2 π σ 2 N ∏ i = 1 N e − ( y ( i ) − f ( x ( i ) ; w ) ) 2 2 σ 2 L=\prod_{i=1}^Np(y^{(i)}|\mathbf{x}^{(i)};\mathbf{w})=\frac{1}{\sqrt{2\pi\sigma^2}^N}\prod_{i=1}^Ne^{-\frac{(y^{(i)}-f(\mathbf{x}^{(i)};\mathbf{w}))^2}{2\sigma^2}}\\ L=i=1∏Np(y(i)∣x(i);w)=2πσ2N1i=1∏Ne−2σ2(y(i)−f(x(i);w))2 - 负对数似然函数或误差为:
E = − ln 1 2 π σ 2 N ∏ i = 1 N e − ( y ( i ) − f ( x ( i ) ; w ) ) 2 2 σ 2 = 1 2 σ 2 ∑ i = 1 N ( y ( i ) − f ( x ( i ) ; w ) ) 2 + ln ( 2 π σ 2 N ) 第 二 项 和 1 2 σ 2 可 以 去 掉 ⟹ ∑ i = 1 N ( y ( i ) − f ( x ( i ) ; w ) ) 2 \begin{aligned} E&=-\ln \frac{1}{\sqrt{2\pi\sigma^2}^N}\prod_{i=1}^{N}e^{-\frac{(y^{(i)}-f(\mathbf{x}^{(i)};\mathbf{w}))^2}{2\sigma^2}}\\ &=\frac{1}{2\sigma^2}\sum_{i=1}^{N} (y^{(i)}-f(\mathbf{x}^{(i)};\mathbf{w}))^2+\ln(\sqrt{2\pi\sigma^2}^N)\\ &第二项和\frac{1}{2\sigma^2}可以去掉 \implies \sum_{i=1}^{N} (y^{(i)}-f(\mathbf{x}^{(i)};\mathbf{w}))^2\\ \end{aligned} E=−ln2πσ2N1i=1∏Ne−2σ2(y(i)−f(x(i);w))2=2σ21i=1∑N(y(i)−f(x(i);w))2+ln(2πσ2N)第二项和2σ21可以去掉⟹i=1∑N(y(i)−f(x(i);w))2
- 输入输出为线性函数关系:
y
(
i
)
=
f
(
x
(
i
)
;
w
)
+
ϵ
(
i
)
y^{(i)}=f(\mathbf{x}^{(i)};\mathbf{w})+\epsilon^{(i)}
y(i)=f(x(i);w)+ϵ(i),其中
ϵ
(
i
)
\epsilon^{(i)}
ϵ(i)为误差项(未建模效应的捕获,随机噪声),服从均值为0,误差为
σ
2
\sigma^2
σ2(与
w
\mathbf{w}
w无关的值)的高斯分布,且独立同分布,则:
交叉熵
- 二分类–逻辑回归
- 似然函数(假设数据服从伯努利分布(高斯分布也行,结果类似上文))
假 设 一 个 样 本 输 出 类 别 1 的 概 率 为 y ^ ( i ) , 则 输 出 类 别 2 的 概 率 为 1 − y ^ ( i ) 令 y ( i ) = 1 代 表 类 别 1 , y ( i ) = 0 代 表 类 别 2 , 则 所 有 数 据 的 似 然 函 数 为 L = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; w ) = ∏ i = 1 N ( y ^ ( i ) ) y ( i ) ( 1 − y ^ ( i ) ) ( 1 − y ( i ) ) 假设一个样本输出类别1的概率为\hat{y}^{(i)},则输出类别2的概率为1-\hat{y}^{(i)}\\ 令y^{(i)}=1代表类别1,y^{(i)}=0代表类别2,则所有数据的似然函数为\\ L=\prod_{i=1}^{N} p(y^{(i)}|\mathbf{x}^{(i)};\mathbf{w}) =\prod_{i=1}^{N} (\hat{y}^{(i)})^{y^{(i)}}(1-\hat{y}^{(i)})^{(1-y^{(i)})} 假设一个样本输出类别1的概率为y^(i),则输出类别2的概率为1−y^(i)令y(i)=1代表类别1,y(i)=0代表类别2,则所有数据的似然函数为L=i=1∏Np(y(i)∣x(i);w)=i=1∏N(y^(i))y(i)(1−y^(i))(1−y(i)) - 负对数似然(交叉熵出现)
− ln L = − ln ∏ i = 1 N ( y ^ ( i ) ) y ( i ) ( 1 − y ^ ( i ) ) ( 1 − y ( i ) ) = − ∑ i = 1 N ln ( ( y ^ ( i ) ) y ( i ) ( 1 − y ^ ( i ) ) ( 1 − y ( i ) ) ) = − ∑ i = 1 N y ( i ) ln ( ( y ^ ( i ) ) + ( 1 − y ( i ) ) ln ( 1 − y ^ ( i ) ) ) \begin{aligned} -\ln L&=-\ln \prod_{i=1}^{N} (\hat{y}^{(i)})^{y^{(i)}}(1-\hat{y}^{(i)})^{(1-y^{(i)})}\\ & =-\sum_{i=1}^{N} \ln ((\hat{y}^{(i)})^{y^{(i)}}(1-\hat{y}^{(i)})^{(1-y^{(i)})})\\ &=-\sum_{i=1}^{N} y^{(i)}\ln ((\hat{y}^{(i)})+{(1-y^{(i)})}\ln(1-\hat{y}^{(i)}))\\ \end{aligned} −lnL=−lni=1∏N(y^(i))y(i)(1−y^(i))(1−y(i))=−i=1∑Nln((y^(i))y(i)(1−y^(i))(1−y(i)))=−i=1∑Ny(i)ln((y^(i))+(1−y(i))ln(1−y^(i)))
- 似然函数(假设数据服从伯努利分布(高斯分布也行,结果类似上文))
- 多分类–Softmax
- 似然函数
L = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; w ) = ∏ i = 1 N ∏ j = 1 C ( y ^ j ( i ) ) y i ( i ) 其 中 C 为 类 别 数 L=\prod_{i=1}^{N}p(y^{(i)}|\mathbf{x}^{(i)};\mathbf{w})=\prod_{i=1}^{N}\prod_{j=1}^{C}(\hat{y}_j^{(i)})^{y_i^{(i)}}\\ 其中C为类别数 L=i=1∏Np(y(i)∣x(i);w)=i=1∏Nj=1∏C(y^j(i))yi(i)其中C为类别数 - 负对数似然
− ln L = − ln ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; w ) = − ln ∏ i = 1 N ∏ j = 1 C ( y ^ j ( i ) ) y i ( i ) = − ∑ i = 1 N ∑ j = 1 C y i ( i ) ln y ^ j ( i ) \begin{aligned} -\ln L&=-\ln\prod_{i=1}^{N}p(y^{(i)}|\mathbf{x}^{(i)};\mathbf{w})=-\ln\prod_{i=1}^{N}\prod_{j=1}^{C}(\hat{y}_j^{(i)})^{y_i^{(i)}}\\ &=-\sum_{i=1}^{N}\sum_{j=1}^{C}{y_i^{(i)}}\ln \hat{y}_j^{(i)} \end{aligned} −lnL=−lni=1∏Np(y(i)∣x(i);w)=−lni=1∏Nj=1∏C(y^j(i))yi(i)=−i=1∑Nj=1∑Cyi(i)lny^j(i)
- 似然函数
⋆ \star ⋆最小化负对数似然实际上是最小化交叉熵损失