贝叶斯分类实战
一、分类基本概念
1.分类在数据挖掘中的定义:
- 分类就是把一些新的数据项映射到给定类别的中的某一个类别
- 分类属于有监督学习,与之相对应的是无监督学习,比如聚类
- 分类和聚类的最大区别在于,分类数据中的一部分的类别是已知的,而聚类数据的类别未知。
2.分类流程
步骤一、将样本转化为等维的数据特征(特征提取)。所有样本必须具有相同数量的特征。兼顾特征的全面性和独特性。
动物种类 | 体型 | 翅膀数量 | 脚的只数 | 是否产蛋 | 是否有毛 | 类别 |
---|---|---|---|---|---|---|
狗 | 中 | 0 | 4 | 否 | 是 | 哺乳动物 |
猪 | 大 | 0 | 4 | 否 | 是 | 哺乳动物 |
牛 | 大 | 0 | 4 | 否 | 是 | 哺乳动物 |
麻雀 | 小 | 2 | 2 | 是 | 是 | 鸟类 |
天鹅 | 中 | 2 | 2 | 是 | 是 | 鸟类 |
大雁 | 中 | 2 | 2 | 是 | 是 | 鸟类 |
步骤二、选择与类别相关的特征(特征选择)。上面的翅膀数,脚的只数,是否产蛋为非常相关,种类,体型为部分相关,是否有毛为完全无关
步骤三、建立分了力模型或分类器
分类器通常可以看做一个函数,它把特征映射到类的空间上。
∫ ( x i 1 , x i 2 , x i 3 , x i 4 , x i 5 . . . . . x i n ) → y i \int\left(x_{i1},x_{i2},x_{i3},x_{i4},x_{i5}.....x_{in}\right)\rightarrow y_i