使用的贝叶斯分类算法实现的,编程语言为java。是我本学期修的数据库与数据挖掘的课程的期末课程作业,算法本身不难,思路理清楚了很简单。
先看看鸢尾花(Iris)数据集(下图为数据集的部分截图),鸢尾花有setosa、Versicolor、Virginica3个类别,数据集中各个类别各50条数据,一共是150条数据记录,每条数据记录的前4个值分别表示鸢尾花的sepalLength、sepalWidth、petalLengthpetalWidth,第5个值是鸢尾花的类型。算法实现过程中将每个类别的前40条记录作为训练数据,进行分类模型的训练,每个类别的后10条数据作为测试数据,对分类模型的准确性进行判断。
算法基本思路:由概率论中先验概率与后验概率的转换公式