【NLP】_01_NLP基础知识


 


 

【一】 Inverted Index(倒排索引)
  • Vocabulary:[ Word1, Word2, …, WordN ]
  • Word1: [ Doc1, Doc2, … ];Word2: [ Doc1, Doc2, … ];WordN: [ Doc1, Doc2, … ]
  • 建立倒排表,用于快速检索,如搜索引擎

 


 

【二】 Noisy Channel Model

 

  • Bayes 贝叶斯公式:
    P ( A ∣ B ) = P ( B ∣ A ) ⋅ P ( A ) P ( B ) P(A|B) = \frac { P ( B | A ) \cdot P ( A ) } { P ( B ) } P(AB)=P(B)P(BA)P(A)

 

  • P ( B ) \bm {P(B)} P(B) 一般为一个常数项,所以:
    P ( A ∣ B ) ∝ P ( B ∣ A ) ⋅ P ( A ) P(A|B) ∝ P(B|A) \cdot P(A) P(AB)P(BA)P(A)

 

  • P ( B ∣ A ) \bm \red {P(B|A)} P(BA) 一般称为 Translation Model,即翻译模型
  • P ( A ) \bm \red {P(A)} P(A) 一般称为 Language Model,即语言模型
  • 应用场景一般与文本(text)有关,如 OCR,中英互译,密码破解,语音识别等

 


 

【三】 Language Model(语言模型)
  • Chain Rule ( Bayes ) P ( W 1 , W 2 , W 3 , . . . , W n ) = P ( W 1 ) ∗ P ( W 2 ∣ W 1 ) ∗ P ( W 3 ∣ W 1 , W 2 )    . . . ∗ P ( W n ∣ W 1 , W 2 , . . . , W n − 1 ) P(W_1, W_2, W_3, ..., W_n) = P(W_1) * P(W_2 | W_1) * P(W_3 | W_1, W_2) \;...* P(W_n | W_1, W_2, ... , W_{n-1}) P(W1,W2,W3,...,Wn)=P(W1)P(W2W1)P(W3W1,W2)...P(WnW1,W2,...,Wn1)

 


 

【四】 Markov Assumption(马尔科夫假设)
  • 一种 近似估计 方法,弥补 LM 的稀疏性
  • N Order Assumption:考虑前 N 个单词

 


 

【五】 Unigram Bigram N-gram(基础语言模型)
  • Unigram0 Order Assumption): P ( W 1 , W 2 , W 3 , . . . , W n ) = P ( W 1 ) ⋅ P ( W 2 ) ⋅ P ( W 3 ) ⋅ . . . ⋅ P ( W n ) P(W_1, W_2, W_3, ..., W_n) = P(W_1) \cdot P(W_2) \cdot P(W_3) \cdot ... \cdot P(W_n) P(W1,W2,W3,...,Wn)=P(W1)P(W2)P(W3)...P(Wn)
  • Bigram1 Order Assumption): P ( W 1 , W 2 , W 3 , . . . , W n ) = P ( W 1 ) ⋅ P ( W 2 ∣ W 1 ) ⋅ P ( W 3 ∣ W 2 ) ⋅ . . . ⋅ P ( W n ∣ W n − 1 ) P(W_1, W_2, W_3, ..., W_n) = P(W_1) \cdot P(W_2 | W_1) \cdot P(W_3 | W_2) \cdot ... \cdot P(W_n | W_{n-1}) P(W1,W2,W3,...,Wn)=P(W1)P(W2W1)P(W3W2)...P(WnWn1)
  • N-gramN-1 Order Assumption):不举例子了

 


 

【六】 Perplexity(一种评估语言模型的方法)

 

  • Perplexity = 2 − x \bm {2 ^ {-x}} 2x (越小越好):x(average log likelihood)
  • 主要针对 无监督(unsupervised)下的文本评估

 


 

【七】 Smoothing(解决冷启动问题)

 

【7.1】 Add-one Smoothing(拉普拉斯 Laplace)

 

【7.2】 Add-K Smoothing

 

【7.3】 Interpolation(考虑多种语言模型,如 Unigram + Bigram + Trigram)

 

【7.4】 Good-Turning Smoothing

 

  • Good-Turning Smoothing 公式 N c N_c Nc 表示出现 c c c 次单词的个数)

 

  • Good-Turning Smoothing 缺点
     
    单词次数的出现大多数情况下 不是连续的,解决方法是通过 机器学习 去拟合一条曲线,大致的估计空缺的值
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值