自然语言处理(二)

本文详细介绍了文本处理中的关键技术,如文档分割、概率理论、概率语言模型(如N-gram和马尔可夫假设)、概率计算、平滑处理以及文本分类方法(包括朴素贝叶斯和情感分析),展示了如何运用概率模型理解和分类文本数据。
摘要由CSDN通过智能技术生成

文件分类

1. **复习**:回顾了文档分割、句子分割、词汇标记化/分割、基于空格的标记化、字节对编码、正则表达式、类型与标记、归一化(包括大小写归一化、标点移除、停用词移除)、词干提取和词形还原。

2. **概率理论回顾**:通过大学Y的例子讨论了概率理论的基本概念,包括随机变量、独立事件和条件概率。

3. **概率语言模型**:介绍了计算句子或词序列概率的语言模型,包括单词序列的概率和接下来单词的概率。

4. **如何计算 P(W)**:探讨了如何计算联合概率 P(W),即给定句子中所有单词联合出现的概率。

5. **马尔可夫假设**:介绍了用于简化概率计算的马尔可夫假设,特别是在语言模型中。

6. **N-gram 模型**:解释了从二元模型(bigram)扩展到三元模型(trigram)和更高级的 n-gram 模型。

7. **估计 Bigram 概率**:讨论了如何使用最大似然估计(MLE)来估计 bigram 概率参数。

8. **泛化和零概率问题**:探讨了在训练和测试数据中的稀疏性问题,以及未知词(OOV)和开放词汇表。

9. **平滑处理**:介绍了平滑技术,特别是加一平滑(Laplace Smoothing),用于解决训练数据中没有出现的词组合的问题。

10. **文本分类**:讨论了如何将文档转换为特征集或向量,并使用模型进行分类。

11. **文本分类方法**:涵盖了二元分类、多类别分类、有监督机器学习分类方法,包括朴素贝叶斯、逻辑回归、支持向量机等。

12. **朴素贝叶斯**:详细介绍了基于贝叶斯规则的简单分类方法,重点是在文本分类中的应用。

13. **情感分类**:讨论了情感分析的策略,包括处理否定词、利用情感词典等。

总体来说,这节课程深入介绍了在自然语言处理中处理文本数据的高级技术,重点关注了如何建立和利用概率模型来理解和分类文本数据。

 

以下是课件中提到的一些重要公式和概念:

1. **独立性判断公式**:如果事件 a 和 b 是独立的,则满足 P(a∩b) = P(a)P(b)。

2. **条件概率**:事件 a 和 b 的条件概率定义为 P(a|b) = P(a∩b) / P(b)。

3. **贝叶斯定理**:P(b|a) = P(a|b)P(b) / P(a)。

4. **联合概率的链式规则**:对于一个词序列 w1, w2, w3, ..., wn,联合概率可表示为 P(w1w2w3...wn) = P(w1)P(w2|w1)P(w3|w1w2)...P(wn|w1w2...wn-1)。

5. **马尔可夫假设**:在 N-gram 模型中,马尔可夫假设是指一个词的出现只与它前面的 N-1 个词有关,而与更早的词无关。

6. **N-gram 概率估计**:例如,在 Bigram 模型中,二元概率可以通过最大似然估计 (MLE) 得到,即 P(w2|w1) = Count(w1w2) / Count(w1)。

7. **平滑处理**:例如加一平滑 (Laplace Smoothing) 公式为 P_Laplace(wi) = (Count(wi) + 1) / (N + V),其中 N 是语料库中词的总数,V 是词汇表中词的总数。

8. **朴素贝叶斯分类器**:对于一个文档 d,该分类器尝试找出使 P(c|d) 最大的类别 c,其中 P(c|d) 可通过贝叶斯定理计算。

这些公式和概念是自然语言处理中重要的数学基础,特别是在概率模型、文本分类和情感分析等领域中具有关键作用。

  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值