第二章P37
公式(2.52)及(2.53)
参数
w
\boldsymbol w
w的后验分布为
p
(
w
∣
X
,
y
;
ν
,
σ
)
=
p
(
w
,
y
∣
X
;
ν
,
σ
)
∑
w
p
(
w
,
y
∣
X
;
ν
,
σ
)
(
2.52
)
=
p
(
y
∣
X
,
w
;
ν
,
σ
)
p
(
w
;
ν
)
p
(
y
∣
X
;
ν
,
σ
)
∝
p
(
y
∣
X
,
w
;
ν
,
σ
)
p
(
w
;
ν
)
(
2.53
)
\begin{array}{ll} p(\boldsymbol w|\boldsymbol X,\boldsymbol y;\nu,\sigma) &=\frac{p(\boldsymbol w,\boldsymbol y|\boldsymbol X;\nu,\sigma)}{\sum_{\boldsymbol w}p(\boldsymbol w,\boldsymbol y|\boldsymbol X;\nu,\sigma)} &(2.52) \\ &= \frac{p(\boldsymbol y|\boldsymbol X,\boldsymbol w;\nu,\sigma)p(\boldsymbol w;\nu)}{p(\boldsymbol y|\boldsymbol X;\nu,\sigma)} \\ &\propto p(\boldsymbol y|\boldsymbol X,\boldsymbol w;\nu,\sigma)p(\boldsymbol w;\nu) &(2.53) \end{array}
p(w∣X,y;ν,σ)=∑wp(w,y∣X;ν,σ)p(w,y∣X;ν,σ)=p(y∣X;ν,σ)p(y∣X,w;ν,σ)p(w;ν)∝p(y∣X,w;ν,σ)p(w;ν)(2.52)(2.53)
其中
p
(
y
∣
X
,
w
;
ν
,
σ
)
p(\boldsymbol y|\boldsymbol X,\boldsymbol w;\nu,\sigma)
p(y∣X,w;ν,σ)
//(在非似然解释下 此概率为
X
,
w
\boldsymbol X,\boldsymbol w
X,w两事件条件下
y
\boldsymbol y
y的概率)
为
w
\boldsymbol w
w的似然函数(在
y
\boldsymbol y
y已知的条件下不同参数
w
\boldsymbol w
w对其分布的影响)
p
(
w
,
y
∣
X
;
ν
,
σ
)
p(\boldsymbol w,\boldsymbol y|\boldsymbol X;\nu,\sigma)
p(w,y∣X;ν,σ)解释为
X
\boldsymbol X
X事件下
w
,
y
\boldsymbol w,\boldsymbol y
w,y同时发生的概率
θ ∗ , θ ′ ∗ = arg min θ , θ ′ 1 n ∑ n i = 1 L ( x ( i ) , x ′ ( i ) ) = arg min θ , θ ′ 1 n ∑ n i = 1 L ( x ( i ) , g θ ′ ( f θ ( x i ) ) ) \begin{array}{ll} \theta ^{*},\theta ^{'*}&= \argmin\limits_{\theta,\theta^{'}}\frac{1}{n}\sum_{n}^{i=1}L\left (\textbf{x}^{(i)},\textbf{x}^{'(i)} \right )\\ &=\argmin\limits_{\theta,\theta^{'}}\frac{1}{n}\sum_{n}^{i=1}L\left (\textbf{x}^{(i)},g_{\theta ^{'}}\left ( f_{\theta }\left ( \textbf{x}^{i}\right )\right )\right ) \end{array} θ∗,θ′∗=θ,θ′argminn1∑ni=1L(x(i),x′(i))=θ,θ′argminn1∑ni=1L(x(i),gθ′(fθ(xi)))
LSTM讲解
Understanding LSTM Networks很好的讲明了理论内容
LSTM细节分析理解(pytorch版)大概讲解了LSTM和pytorch结合的内容