患者的年纪,怀孕和血液检查的次数。所有患者都是
21
岁以上(含
21
岁)的女性,所有属
性都是数值型,而且属性的单位各不相同。
每一个记录归属于一个类,
这个类指明以测量时间为止,
患者是否是在
5
年之内感染的糖尿
病。如果是,则为
1
,否则为
0
。
机器学习文献中已经多次研究了这个标准数据集,好的预测精度为
70%-76%
。
下面是
pima-indians.data.csv
文件中的一个样本,了解一下我们将要使用的数据。
注意:
下载
文件
,然后以
.csv
扩展名保存(如:
pima-indians-diabetes.data.csv
)。查看
文件
中所有属性的描述。
Python
1
2
3
4
5
6,148,72,35,0,33.6,0.627,50,1
1,85,66,29,0,26.6,0.351,31,0
8,183,64,0,0,23.3,0.672,32,1
1,89,66,23,94,28.1,0.167,21,0
0,137,40,35,168,43.1,2.288,33,1
朴素贝叶斯算法教程
教程分为如下几步:
1.
处理数据:
从
CSV
文件中载入数据,然后划分为训练集和测试集。
2.
提取数据特征:
提取训练数据集的属性特征,以便我们计算概率并做出预测。
3.
单一预测:
使用数据集的特征生成单个预测。
4.
多重预测:
基于给定测试数据集和一个已提取特征的训练数据集生成预测。
5.
评估精度:
评估对于测试数据集的预测精度作为预测正确率。
6.
合并代码:
使用所有代码呈现一个完整的、独立的朴素贝叶斯算法的实现。
1.
处理数据