采用朴素贝叶斯方法进行学习,原始数据共150组,拿120个作为训练集,另外30个作为测试集合。
对于特征值的处理:
1、离散化。具体做法是:找到每个特征值的中位数,把其当做阈值,小于它和大于它相当于不同的取值。
2、 采用朴素贝叶斯方法进行学习。因为特征值是连续值,假设每个特征都满足高斯分布,用高斯函数来估计。
离散化版本:
#include <cstdio>
#include <algorithm>
#include <cstring>
using namespace std;
#define clr(s,t) memset(s,t,sizeof(s));
#define N 1000
#define D 30
#define TRAIN 120
#define TEST 30
double data[N][5],t[N],bound[D];
char kind[N][100],str[D][100];
int out[N],prior[N],condition[10][D][N],len;
int find(char *x){
int i;
for(i = 0;i<=len;i++)
if(!strcmp(str[i], x))
return i;
strcpy(str[++len], x);
return len;
}
void learning(){
int i,j;
clr(condition, 0);
clr(prior, 0);
len = -1;
for(i = 0;i<TRAIN;i++)
scanf("%lf,%lf,%lf,%lf,%s\n",&data[i][0],&a