实验一:“贝叶斯分类器的设计”实验说明
Part 1.仿真实验
随机产生10000组正样本和20000负样本高斯分布的数据集合(维数设为二维),要求正样本:均值为[1;3],方差为[2 0;0 2];负样本:均值为[10;20],方差为[10 0;0 10]。先验概率按样本量设定为1/3和2/3.分别利用最小错误概率贝叶斯分类器和最小风险概率贝叶斯分类器对其分类。(假设风险程度正样本分错风险系数为0.6,负样本分错风险为0.4,该设定仅用于最小风险分析)
Part 2. 实际应用—汽车评价分类
给定汽车评价数据集,下载链接:http://archive.ics.uci.edu/ml/datasets/Car+Evaluation,利用贝叶斯算法进行数据分类操作,并统计其预测正确率。
(1)数据描述
共1728个数据,每个数据特征为6维,分为4类,类别标记为unacc,acc,good,V-good
四个类别标记分别表示汽车性价比等级(由低到高)
unacc:1210个
acc:384个
good:69个
V-good:65个
6个特征分别为:(6个属性)
- buying (取值:v-high、high、med、low) 表示购买价格
- maint (取值: v-high、high、med、low) 表示维修价格
- door (取值:2、3、4、5-more) 车门数量
- Persons (取值:2、4、more) 可容纳人数
- Lug_boot (取值:small、med、big) 行李箱大小
6、Safety (取值:low、med、high) 安全系数
(2)实验完成要求
- 仔细阅读实验说明并了解数据集;
- 使用任何一种熟悉的计算机语言(比如 C,Java或者MATLAB)实现朴素贝叶斯算法;
- 利用10折交叉验证,对所设计的贝叶斯分类器进行性能评估;
- 提交代码,统计并分析实验结果,上交实验报告;
实验步骤:
题目1:
- 根据均值和方差生成样本集
- 对每个样本进行预测
若采用最小错误概率贝叶斯分类器,则以最大概率预测。
由于正态分布在某一具体值的概率为0,所以考虑以
若采用最小风险概率贝叶斯分类器,则根据小风险预测。
其中
- 由于数据量较多且随机产生,考虑输出预测结果到外部文件。