【NLP】_01_NLP基础知识

最新推荐文章于 2023-11-05 16:20:11 发布

DamonDT

最新推荐文章于 2023-11-05 16:20:11 发布

阅读量216

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34330456/article/details/104110477

版权

NLP 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

文章目录

【一】 Inverted Index（倒排索引）

Vocabulary：[ Word1, Word2, …, WordN ]
Word1: [ Doc1, Doc2, … ]；Word2: [ Doc1, Doc2, … ]；WordN: [ Doc1, Doc2, … ]
建立倒排表，用于快速检索，如搜索引擎

【二】 Noisy Channel Model

Bayes 贝叶斯公式：
$\frac { P ( B | A ) \cdot P ( A ) } { P ( B ) }$

$\bm {P(B)}$ 一般为一个常数项，所以：
$\cdot P(A)$

$\bm \red {P(B|A)}$ 一般称为 Translation Model，即翻译模型
$\bm \red {P(A)}$ 一般称为 Language Model，即语言模型
应用场景一般与文本（text）有关，如 OCR，中英互译，密码破解，语音识别等

【三】 Language Model（语言模型）

Chain Rule ( Bayes )： $P(W_1, W_2, W_3, ..., W_n) = P(W_1) * P(W_2 | W_1) * P(W_3 | W_1, W_2) \;...* P(W_n | W_1, W_2, ... , W_{n-1})$

【四】 Markov Assumption（马尔科夫假设）

一种 近似估计 方法，弥补 LM 的稀疏性
N Order Assumption：考虑前 N 个单词

【五】 Unigram Bigram N-gram（基础语言模型）

Unigram（0 Order Assumption）： $P(W_1, W_2, W_3, ..., W_n) = P(W_1) \cdot P(W_2) \cdot P(W_3) \cdot ... \cdot P(W_n)$
Bigram（1 Order Assumption）： $P(W_1, W_2, W_3, ..., W_n) = P(W_1) \cdot P(W_2 | W_1) \cdot P(W_3 | W_2) \cdot ... \cdot P(W_n | W_{n-1})$
N-gram（N-1 Order Assumption）：不举例子了

【六】 Perplexity（一种评估语言模型的方法）

Perplexity = $\bm {2 ^ {-x}}$ (越小越好)：x（average log likelihood）

主要针对 无监督（unsupervised）下的文本评估

【七】 Smoothing（解决冷启动问题）

【7.1】 Add-one Smoothing（拉普拉斯 Laplace）

【7.2】 Add-K Smoothing

【7.3】 Interpolation（考虑多种语言模型，如 Unigram + Bigram + Trigram）

【7.4】 Good-Turning Smoothing

Good-Turning Smoothing 公式（ $N_c$ 表示出现 $c$ 次单词的个数）

Good-Turning Smoothing 缺点

单词次数的出现大多数情况下 不是连续的，解决方法是通过 机器学习 去拟合一条曲线，大致的估计空缺的值

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【NLP】_01_NLP基础知识

【一】Inverted Index（倒排索引）Vocabulary：[ Word1, Word2, …, WordN ]Word1: [ Doc1, Doc2, … ]；Word2: [ Doc1, Doc2, … ]；WordN: [ Doc1, Doc2, … ]建立倒排表，用于快速检索，如搜索引擎 【二】Noisy Channel ModelBayes 贝叶斯公式...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。