规则方法
- 规则与程序分离, 程序依据规则解释语言.
- 词素
- 英语形态还原
- 汉语分词 tokenization / segmentation
- 最大匹配 (正向 / 逆向 / 双向消歧.)
- 最大最小匹配 (发现歧义)
- 全切分 / 最大可能切分
- 词性标注
- 规则方法 (词典+规则+消歧)
语言模型
高维稀疏
- Zipf Law
- frequency * rank = constant
- 特征选择
- 互信息
- 零概率平滑
- add count p ^ ( w ) = c ( w ) + d Z + ∣ Σ ∣ d \hat{p}(w) = \frac{c(w) + d}{Z + |\Sigma|d} p^(w)=Z+∣Σ∣dc(w)+d
- laplace smoothing p ^ ( w t , w t − 1 ) = c ( w t , w t − 1 ) + d p ^ ( w t ) Z + d \hat{p}(w_{t},w_{t-1}) = \frac{c(w_{t},w_{t-1}) + d \hat{p}(w_t)}{Z + d} p^(wt,wt−1)=Z+dc(wt,wt−1)+dp^(wt) (回退)
- linear interpolation p ^ ( w t ∣ w t − 2 , w t − 1 ) = λ 2 p ( w t ∣ w t − 2 , w t − 1 ) + λ 1 p ( w t ∣ w t − 1 ) + λ 0 p ( w t ) \hat{p}(w_{t}|w_{t-2},w_{t-1}) = \lambda_2 p(w_{t}|w_{t-2},w_{t-1}) + \lambda_1 p(w_{t}|w_{t-1}) + \lambda_0 p(w_{t}) p^(wt∣wt−2,wt−1)=λ2p(wt∣wt−2,wt−1)+λ1p(wt∣wt−1)+λ0p(wt)
- 评价指标
- 困惑度 Perplexity p ( x 1 : T ) − 1 T = 1 p ( x 1 : T ) T p(x_{1:T})^{- \frac{1}{T}} = \sqrt[T]{\frac{1}{p(x_{1:T})}} p(x1:T)−T1=Tp(x1:T)1
生成模型
- Naive Bayes
- arg max y p ( y ∣ x ) = arg max y p ( x ∣ y ) p ( y ) p ( x ) = arg max y p ( x ∣ y ) p ( y ) \arg\max\limits_y p(y|x) = \arg\max\limits_y \frac{p(x|y) p(y)}{p(x)} = \arg\max\limits_y p(x|y) p(y) argymaxp(y∣x)=argymaxp(x)p(x∣y)p(y)=argymaxp(x∣y)p(y)
- p ( x ∣ y ) = ( ∑ σ ∈ Σ x σ ) ! ∏ σ ∈ Σ x σ ∏ σ ∈ Σ ( p ( σ ∣ y ) ) x σ p(x|y) = \frac{(\sum\limits_{\sigma \in \Sigma} x_\sigma)!}{\prod\limits_{\sigma \in \Sigma} x_\sigma} \prod\limits_{\sigma \in \Sigma} (p(\sigma|y))^{x_\sigma} p(x∣y)=σ∈Σ∏xσ(σ∈Σ∑xσ)!σ∈Σ∏(p(σ∣y))xσ (⚠ ( ∑ σ ∈ Σ x σ { x σ } σ ∈ Σ ) = ( ∑ σ ∈ Σ x σ ) ! ∏ σ ∈ Σ x σ \binom{\sum\limits_{\sigma \in \Sigma} x_\sigma}{\{x_\sigma\}_{\sigma \in \Sigma}} = \frac{(\sum\limits_{\sigma \in \Sigma} x_\sigma)!}{\prod\limits_{\sigma \in \Sigma} x_\sigma} ({ xσ}σ∈Σσ∈Σ∑xσ)=σ∈Σ∏xσ(σ∈Σ∑xσ)! 消去顺序性)
- p ( y ) = M y ∑ y ∈ Y M y p(y) = \frac{M_y}{\sum\limits_{y \in Y} M_y} p(y)=y∈Y∑MyMy
- p ( σ ∣ y ) = N y σ ∑ σ ∈ Σ N y σ p(\sigma|y) = \frac{N_{y \sigma}}{\sum\limits_{\sigma \in \Sigma} N_{y \sigma}} p(σ∣y)=σ∈Σ∑NyσNyσ