基于贝叶斯算法的文本分类算法

最新推荐文章于 2024-07-29 21:43:44 发布

KEN11

最新推荐文章于 2024-07-29 21:43:44 发布

阅读量1.7w

点赞数 5

分类专栏：贝叶斯分类文章标签：算法文档 c 数据挖掘测试 up

本文链接：https://blog.csdn.net/tbkken/article/details/8062358

版权

本文介绍了基于贝叶斯算法的文本分类原理，详细阐述了多项式模型和伯努利模型的计算过程，并通过实例展示了如何对文本进行分类。在多项式模型中，计算每个单词在类别的条件概率，而在伯努利模型中，考虑的是单词是否出现在文件中。通过对新样本的概率计算，确定其所属类别。

摘要由CSDN通过智能技术生成

因为要做一个关于数据挖掘的算法应用PPT，虽然知道很多数据挖掘的算法怎么使用，但是需要讲解它们的原理，还真的需要耗费很多精力，之前做一个曲线拟合，已经发在博客里，现在做贝叶斯算法的基础原理。

1、基本定义：

分类是把一个事物分到某个类别中。一个事物具有很多属性，把它的众多属性看作一个向量，即x=(x1,x2,x3,…,xn)，用x这个向量来代表这个事物，x的集合记为X，称为属性集。类别也有很多种，用集合C={c1,c2,…cm}表示。一般X和C的关系是不确定的，可以将X和C看作是随机变量，P(C|X)称为C的后验概率，与之相对的，P(C)称为C的先验概率。