NLP 文本分类实战

最新推荐文章于 2024-03-02 20:57:22 发布

王改改

最新推荐文章于 2024-03-02 20:57:22 发布

阅读量432

点赞数

分类专栏： NLP 文章标签： nlp 算法机器学习自然语言处理

本文链接：https://blog.csdn.net/Day_20/article/details/107632105

版权

本文深入探讨自然语言处理中的语言模型，包括马尔科夫假设、评估模型好坏的标准如困惑度、Laplace平滑处理，以及在拼写纠错中的应用。此外，还介绍了文本预处理、单词表示方法如one-hot和词向量，以及词向量模型如Skip-Gram和CBow。

摘要由CSDN通过智能技术生成

语言模型

语言模型用来判断：一句话从语法上是否通顺。通俗的讲就是判断一句话是不是人说的话的模型，即能够判断出 $\ want \ to \ learn \ nlp) > p(I \ want \ to \ nlp \ learn)$

通常情况下一个句子由若干词或者字组成，若句子用 $s$ 表示，组成句子的词用 $w$ 表示，可记做 $w_1, w_2, w_3, w_4, ... , w_n$ ，如下所示：

$p(s) = p(w_1, w_2, w_3, w_4, ... , w_n )$
$p (我要学习 N L P) = p (我, 要, 学习, N L P)$

如何计算一个句子出现的概率？在此之前需要了解一个 Chain Rule 的数理统计的知识，如下：

$p (A, B, C, D) = p (A) \cdot p (B ∣ A) \cdot p (C ∣ A, B) \cdot p (D ∣ A, B, C)$
- $p (A, B) = p (A) \cdot p (B ∣ A)$
- $p (A, B, C) = p (A, B) \cdot p (C ∣ A, B)$
$p(w_1, w_2, w_3, w_4, ... , w_n ) = p(w_1) · p(w_2|w_1) .... p(w_n|w_1w_2w_3w_4 ... w_{n-1})$

那么，对于句子“ 我要学习NLP” 来说，计算其概率可采用 Chain Rule 的规则方法。

$p (我要学习 N L P) = p (我, 要, 学习, N L P)$
$p (我, 要, 学习, N L P) = p (我) \cdot p (要 ∣ 我) . . . . p (N L P ∣ 我，要，学习)$

然而概率的条件越多，比如： $p (N L P ∣ 我，要，学习)$ ，符合概率的情况就越小。假如“我”出现的概率是0.0001，“要”出现的概率0.0001，“学习”出现的概率更小的话，一直累乘下去“NLP”出现的概率会越来越小。为了解决该问题，需要引入了 N-gram 模型来解决这个问题，N-gram 模型引入了马尔科夫假设（markov assumption），即当前词出现的概率只与其前 n-1 个词有关。