自然语言处理复习提纲

规则方法

  • 规则与程序分离, 程序依据规则解释语言.
  • 词素
    • 英语形态还原
    • 汉语分词 tokenization / segmentation
      • 最大匹配 (正向 / 逆向 / 双向消歧.)
      • 最大最小匹配 (发现歧义)
      • 全切分 / 最大可能切分
  • 词性标注
    • 规则方法 (词典+规则+消歧)

语言模型

高维稀疏

  • Zipf Law
    • frequency * rank = constant
  • 特征选择
    • 互信息
  • 零概率平滑
    • add count p ^ ( w ) = c ( w ) + d Z + ∣ Σ ∣ d \hat{p}(w) = \frac{c(w) + d}{Z + |\Sigma|d} p^(w)=Z+Σdc(w)+d
    • laplace smoothing p ^ ( w t , w t − 1 ) = c ( w t , w t − 1 ) + d p ^ ( w t ) Z + d \hat{p}(w_{t},w_{t-1}) = \frac{c(w_{t},w_{t-1}) + d \hat{p}(w_t)}{Z + d} p^(wt,wt1)=Z+dc(wt,wt1)+dp^(wt)   (回退)
    • linear interpolation p ^ ( w t ∣ w t − 2 , w t − 1 ) = λ 2 p ( w t ∣ w t − 2 , w t − 1 ) + λ 1 p ( w t ∣ w t − 1 ) + λ 0 p ( w t ) \hat{p}(w_{t}|w_{t-2},w_{t-1}) = \lambda_2 p(w_{t}|w_{t-2},w_{t-1}) + \lambda_1 p(w_{t}|w_{t-1}) + \lambda_0 p(w_{t}) p^(wtwt2,wt1)=λ2p(wtwt2,wt1)+λ1p(wtwt1)+λ0p(wt)
  • 评价指标
    • 困惑度 Perplexity p ( x 1 : T ) − 1 T = 1 p ( x 1 : T ) T p(x_{1:T})^{- \frac{1}{T}} = \sqrt[T]{\frac{1}{p(x_{1:T})}} p(x1:T)T1=Tp(x1:T)1

生成模型

  • Naive Bayes
    • arg ⁡ max ⁡ y p ( y ∣ x ) = arg ⁡ max ⁡ y p ( x ∣ y ) p ( y ) p ( x ) = arg ⁡ max ⁡ y p ( x ∣ y ) p ( y ) \arg\max\limits_y p(y|x) = \arg\max\limits_y \frac{p(x|y) p(y)}{p(x)} = \arg\max\limits_y p(x|y) p(y) argymaxp(yx)=argymaxp(x)p(xy)p(y)=argymaxp(xy)p(y)
    • p ( x ∣ y ) = ( ∑ σ ∈ Σ x σ ) ! ∏ σ ∈ Σ x σ ∏ σ ∈ Σ ( p ( σ ∣ y ) ) x σ p(x|y) = \frac{(\sum\limits_{\sigma \in \Sigma} x_\sigma)!}{\prod\limits_{\sigma \in \Sigma} x_\sigma} \prod\limits_{\sigma \in \Sigma} (p(\sigma|y))^{x_\sigma} p(xy)=σΣxσ(σΣxσ)!σΣ(p(σy))xσ   (⚠ ( ∑ σ ∈ Σ x σ { x σ } σ ∈ Σ ) = ( ∑ σ ∈ Σ x σ ) ! ∏ σ ∈ Σ x σ \binom{\sum\limits_{\sigma \in \Sigma} x_\sigma}{\{x_\sigma\}_{\sigma \in \Sigma}} = \frac{(\sum\limits_{\sigma \in \Sigma} x_\sigma)!}{\prod\limits_{\sigma \in \Sigma} x_\sigma} ({ xσ}σΣσΣxσ)=σΣxσ(σΣxσ)! 消去顺序性)
    • p ( y ) = M y ∑ y ∈ Y M y p(y) = \frac{M_y}{\sum\limits_{y \in Y} M_y} p(y)=yYMyMy
    • p ( σ ∣ y ) = N y σ ∑ σ ∈ Σ N y σ p(\sigma|y) = \frac{N_{y \sigma}}{\sum\limits_{\sigma \in \Sigma} N_{y \sigma}} p(σy)=σΣNyσNyσ
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值