参考李航《统计学习方法》,列出一个自制的简单的数据集,描述朴素贝叶斯算法的原理。
一步步往下读,很好理解这个算法!
基本设定
- 输入值 X :一个 n 维向量,即输入的数据包含 n 个特征值
- 输出值 Y :{c1, c2, ……, ck} 中的一个(总共有 k 种 label)
- 训练集 T :{(x1, y1), (x2, y2), ……, (xN, yN)}(总共 N 组)
以一个简易数据集为例:
脸-X(1) | 胸-X(2) | 腿-X(3) | 追不追-Y |
美 | 大 | 长 | 追 |
美 | 小 | 长 | 追 |
美 | 大 | 短 | 追 |
美 | 小 | 短 | 不追 |
丑 | 大 | 长 | 追 |
丑 | 小 | 长 | 不追 |
丑 | 大 | 短 | 不追 |
丑 | 小 | 短 | 不追 |