自然语言处理相关介绍

最新推荐文章于 2024-07-24 08:46:20 发布

nicolas_chang

最新推荐文章于 2024-07-24 08:46:20 发布

阅读量889

点赞数

分类专栏：深度学习文章标签： NLP 信息熵自然语言处理

本文链接：https://blog.csdn.net/nicolas_chang/article/details/83240558

版权

本文深入探讨自然语言处理的基础，包括语言的数学本质、统计语言模型如N-Gram，以及信息熵在决策树中的应用。通过信息熵、互信息和相对熵等概念，阐述了信息度量在消除不确定性和决策树分类中的作用。同时，介绍了分词技术，如基于统计模型的分词方法，以及预处理技术如One-hot编码、Bag Of Words模型和TF-IDF。

摘要由CSDN通过智能技术生成

自然语言处理基本概念

语言的数学本质

语言的出现是为了通信，通信的本质是为了传递信息。字母，文字，数字都是信息编码的不同单元。任何一种语言都是一种编解码算法。
我们通过语言把要表达的意思传递出来，实际上就是用语言将大脑中的信息进行了一次编码，形成了一串文字。懂得这种语言的接收方就能够使用这种语言进行解码，然后获取到里面的信息。这就是语言的数学本质。

统计语言模型

机器是不懂得任何一种语言的，早期的自然语言处理方式是让计算机学习理解语言的语义，语法，然后据此判断一个句子是否合理，含义是什么。但最终证明这种研究方向和学习方式是行不通的。

现在的自然语言处理是基于统计语言模型，它根本不需要计算机理解人类的语言，它要做的就是判断一个句子是否合理，就看这个句子在语料库中出现的概率如何。

假定S表示某一个有意义的句子，由一连串的词 $w_1, w_2, \cdots, w_n$ 组成， $n$ 是句子的长度。如果想知道S在文本中出现的概率 $P (S)$ ，那就需要把有史以来人类讲过的话统计一下，然后计算出出现的概率。这种方法很显然是行不通的。因此，需要一个模型来估算。由于 $w_1, w_2, \cdots, w_n$ ，那么 $P(w_1, w_2, \cdots, w_n)$ ，利用条件概率公式，S出现的概率等于每一个词出现的条件概率的乘积
$P(w_1, w_2, \cdots, w_n) = P(w_1) \cdot P(w_2|w_1) \cdot P(w_3|w_1, w_2) \cdots P(w_n|w_1, w_2, \cdots, w_{n-1})$
其中 $P(w_2|w_1)$ 表示在已知以一个词出现的前提下，第二个词出现的概率，以此类推， $w_n$ 的出现概率取决于它前面所有的词。但这种条件概率的可能性太多，非常难以计算。俄国数学家马尔科夫提出了一个偷懒但是有效的做法，即马尔科夫假设模型来简化这种计算：任意一个词 $w_i$ 出现的概率只同它前面的词 $w_{i-1}$ 有关，简化后S出现的概率为：
$P(w_1) \cdot P(w_2|w_1) \cdot P(w_3|w_2) \cdots P(w_n|w_{n-1})$
该公式对应的统计语言模型为二元模型(Bigram Model)。

以上是理论，那么在实际的机器学习中是如何操作的呢？

首先计算 $P(w_i|w_{i-1})$ ，根据条件概率的定义 $P(w_i|w_{i-1}) = \frac{P(w_i, w_{i-1})}{P(W_{i-1})}$ ，只需估计联合概率 $P(w_i, w_{i-1})$ 和边缘概率 $P(w_{i-1})$ ，就变得很简单。基于大量的语料库(Corpus)，只需要统计 $w_{i-1}, w_i$