自然语言处理（二）

最新推荐文章于 2024-08-19 13:32:52 发布

胶布️

最新推荐文章于 2024-08-19 13:32:52 发布

阅读量357

点赞数 4

文章标签： python 人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_79827103/article/details/137521755

版权

本文详细介绍了文本处理中的关键技术，如文档分割、概率理论、概率语言模型（如N-gram和马尔可夫假设）、概率计算、平滑处理以及文本分类方法（包括朴素贝叶斯和情感分析），展示了如何运用概率模型理解和分类文本数据。

摘要由CSDN通过智能技术生成

文件分类

1. **复习**：回顾了文档分割、句子分割、词汇标记化/分割、基于空格的标记化、字节对编码、正则表达式、类型与标记、归一化（包括大小写归一化、标点移除、停用词移除）、词干提取和词形还原。

2. **概率理论回顾**：通过大学Y的例子讨论了概率理论的基本概念，包括随机变量、独立事件和条件概率。

3. **概率语言模型**：介绍了计算句子或词序列概率的语言模型，包括单词序列的概率和接下来单词的概率。

4. **如何计算 P(W)**：探讨了如何计算联合概率 P(W)，即给定句子中所有单词联合出现的概率。

5. **马尔可夫假设**：介绍了用于简化概率计算的马尔可夫假设，特别是在语言模型中。

6. **N-gram 模型**：解释了从二元模型（bigram）扩展到三元模型（trigram）和更高级的 n-gram 模型。

7. **估计 Bigram 概率**：讨论了如何使用最大似然估计（MLE）来估计 bigram 概率参数。

8. **泛化和零概率问题**：探讨了在训练和测试数据中的稀疏性问题，以及未知词（OOV）和开放词汇表。

9. **平滑处理**：介绍了平滑技术，特别是加一平滑（Laplace Smoothing），用于解决训练数据中没有出现的词组合的问题。

10. **文本分类**：讨论了如何将文档转换为特征集或向量，并使用模型进行分类。

11. **文本分类方法**：涵盖了二元分类、多类别分类、有监督机器学习分类方法，包括朴素贝叶斯、逻辑回归、支持向量机等。

12. **朴素贝叶斯**：详细介绍了基于贝叶斯规则的简单分类方法，重点是在文本分类中的应用。

13. **情感分类**：讨论了情感分析的策略，包括处理否定词、利用情感词典等。

总体来说，这节课程深入介绍了在自然语言处理中处理文本数据的高级技术，重点关注了如何建立和利用概率模型来理解和分类文本数据。

以下是课件中提到的一些重要公式和概念：

1. **独立性判断公式**：如果事件 a 和 b 是独立的，则满足 P(a∩b) = P(a)P(b)。

2. **条件概率**：事件 a 和 b 的条件概率定义为 P(a|b) = P(a∩b) / P(b)。

3. **贝叶斯定理**：P(b|a) = P(a|b)P(b) / P(a)。

4. **联合概率的链式规则**：对于一个词序列 w1, w2, w3, ..., wn，联合概率可表示为 P(w1w2w3...wn) = P(w1)P(w2|w1)P(w3|w1w2)...P(wn|w1w2...wn-1)。

5. **马尔可夫假设**：在 N-gram 模型中，马尔可夫假设是指一个词的出现只与它前面的 N-1 个词有关，而与更早的词无关。

6. **N-gram 概率估计**：例如，在 Bigram 模型中，二元概率可以通过最大似然估计 (MLE) 得到，即 P(w2|w1) = Count(w1w2) / Count(w1)。

7. **平滑处理**：例如加一平滑 (Laplace Smoothing) 公式为 P_Laplace(wi) = (Count(wi) + 1) / (N + V)，其中 N 是语料库中词的总数，V 是词汇表中词的总数。

8. **朴素贝叶斯分类器**：对于一个文档 d，该分类器尝试找出使 P(c|d) 最大的类别 c，其中 P(c|d) 可通过贝叶斯定理计算。

这些公式和概念是自然语言处理中重要的数学基础，特别是在概率模型、文本分类和情感分析等领域中具有关键作用。

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理（二）

4. **联合概率的链式规则**：对于一个词序列 w1, w2, w3, ..., wn，联合概率可表示为 P(w1w2w3...wn) = P(w1)P(w2|w1)P(w3|w1w2)...P(wn|w1w2...wn-1)。6. **N-gram 概率估计**：例如，在 Bigram 模型中，二元概率可以通过最大似然估计 (MLE) 得到，即 P(w2|w1) = Count(w1w2) / Count(w1)。5. **马尔可夫假设**：介绍了用于简化概率计算的马尔可夫假设，特别是在语言模型中。
复制链接

扫一扫

胶布️ CSDN认证博客专家 CSDN认证企业博客

码龄1年

55: 原创

125万+: 周排名

5万+: 总排名

1万+: 访问

: 等级

717: 积分

184: 粉丝

159: 获赞

26: 评论

175: 收藏

私信

关注

热门文章

最新评论

图像处理（三）
普通网友: 文章结构严谨有条,层次分明,读起来一点也不费劲，让人受益匪浅。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
图像处理（五）
普通网友: 大佬高质量文章，图文并茂，逻辑清晰，受益匪浅，期待大佬新作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
图像处理（四）
普通网友: 大佬高质量文章，图文并茂，逻辑清晰，受益匪浅，期待大佬新作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
图像处理（一）
普通网友: 学到了，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
图像处理（一）
普通网友: 感谢大佬分享好文，学到了不少新知识，支持大佬，期待大佬持续输出优质文章！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。