贝叶斯分类属于不确定性推理,需要用到概率论的知识,数学原理和嫁与不嫁的例子参照 朴素贝叶斯原理 - 知乎
样本数据如下,一共只有20个样本,自己捏造的-_-,每个样本有4个特征(帅不帅、性格好不好、高不高、上进不上进,比上面帖子多了一个特征。1表示肯定,0表示否定)和1个分类结果(嫁不嫁,1表示嫁,0表示不嫁),如果有更多的真实样本,预测效果会更好。
C/C++程序框架如下(函数具体实现略),主要有三个函数:打印样本数据,对20个样本数据进行分类预测并计算预测准确率,对其它输入样本进行分类预测。
代码偷了懒,样本数据直接写死了,没有从文件读取,而且样本的特征和分类分别写在了两个变量里。
另外,按照C语言语法,函数形参列表[ ]里的值都是没用的,目的是方便我知道数组中数据的个数。
//帅、性格好、高、上进
#include <time.h>
#include <iostream>
using namespace std;
#define SampleSize 20
#define FeatureNum 4
#define DEBUG 0
void PrintSample(int sample[SampleSize][FeatureNum], int classLable[SampleSize]);
void BayesClassifyTest(int sample[SampleSize][FeatureNum], int classLable[SampleSize]);
void BayesClassify(int sample[SampleSize][FeatureNum], int classLable[SampleSize]);
int main()
{
int sample[SampleSize][FeatureNum] = { {0,0,1,0},{1,1,0,0},{1,1,1,0},{0,0,1,0},
{0,0,0,1},{1,0,1,0},{1,1,1,1},{1,1,1,1},
{1,1,0,0},{0,1,0,1},{0,0,1,0},{0,1,1,1},
{0,0,1,0},{0,1,1,1},{1,0,1,0},{1,1,0,1},
{1,0,1,0},{0,0,0,0},{1,1,1,1},{0,1,1,1} };
int classLable[SampleSize] = { 0,1,1,0,0,1,1,1,1,1,0,0,1,1,0,0,0,0,1,1 };
PrintSample(sample, classLable);
BayesClassifyTest(sample, classLable);
BayesClassify(sample, classLable);
return 0;
}
运行结果如下,首先是20个样本的分类预测结果(20个样本既作为训练数据,也作为测试数据),准确率80%(20次预测错了4次),不是很高,主要是因为样本数量比较少。
然后输入一个新的样本,对这个样本的分类结果进行预测。
下面是用冷门函数式编程语言写的,代码比C简单很多,算出来的概率0.178089,和上图一致,都是P(J|0,0,0,1),即:对于样本(帅、性格好、高、不上进),预测嫁的概率是0.178089。另外,需要计算P(BJ|0,0,0,1),即:对于样本(帅、性格好、高、不上进),不嫁的概率。最后比较两个概率的大小,得到预测结果。
代码中的pu和pd都是概率,u表示up,所以pu表示分子里的概率,d表示down,所以pd表示分母里的概率。最后的概率是通过计算9个概率得到的(分子有5个概率,分母有4个概率),这9个概率都是通过统计原始样本得到的。
对于某些样本,最后计算出来的概率可能大于1,原因可能是因为样本特征不是完全互相独立的。