strip()方法
collections
语言模型
n元语法
随机采样
相邻采样
梯度裁剪
在BP过程中会产生梯度消失/爆炸
(偏导无限接近0,导致长时记忆无法更新)
g 1 = ∂ J ( w ) ∂ w 1 , g 2 = ∂ J ( w ) ∂ w 2 g_{1}=\frac{\partial J(\mathbf{w})}{\partial w_{1}},g_{2}=\frac{\partial J(\mathbf{w})}{\partial w_{2}} g1=∂w1∂J(w),g2=∂w2∂J(w), ∥ g ∥ 2 = g 1 2 + g 2 2 \|\mathbf{g}\|_{2}=\sqrt{g_{1}^{2}+g_{2}^{2}} ∥g∥2=g12+g22
∥
g
∥
2
\|\mathbf{g}\|_{2}
∥g∥2 大于等于
θ
{\theta}
θ 时,
g
=
θ
∥
g
∥
2
⋅
g
\mathbf{g}=\frac{\theta}{\|\mathbf{g}\|_{2}} \cdot \mathbf{g}
g=∥g∥2θ⋅g
∥ g ∥ 2 \|\mathbf{g}\|_{2} ∥g∥2 小于等于 θ {\theta} θ 时, g \mathbf{g} g不变
Perplexity
case | probability | Perplexity |
---|---|---|
good | p=1 | Per=1 |
worst | p=0 | Per=无穷 |
base_line | p=p | Per=Num of Class |