朴素贝叶斯——UCI数据集IRIS

最新推荐文章于 2022-12-08 13:34:25 发布

dumeichen

最新推荐文章于 2022-12-08 13:34:25 发布

阅读量3.5k

点赞数

分类专栏： ML

本文链接：https://blog.csdn.net/dumeichen/article/details/49765849

版权

该博客介绍了如何处理连续特征值，通过寻找中位数进行离散化，并应用朴素贝叶斯方法对UCI数据集IRIS进行分类。采用高斯分布假设来估计特征概率。

摘要由CSDN通过智能技术生成

采用朴素贝叶斯方法进行学习，原始数据共150组，拿120个作为训练集，另外30个作为测试集合。

对于特征值的处理：

1、离散化。具体做法是：找到每个特征值的中位数，把其当做阈值，小于它和大于它相当于不同的取值。

2、采用朴素贝叶斯方法进行学习。因为特征值是连续值，假设每个特征都满足高斯分布，用高斯函数来估计。

离散化版本：

#include <cstdio>
#include <algorithm>
#include <cstring>
using namespace std;
#define clr(s,t) memset(s,t,sizeof(s));
#define N 1000
#define D 30
#define TRAIN 120
#define TEST 30
double data[N][5],t[N],bound[D];
char kind[N][100],str[D][100];
int out[N],prior[N],condition[10][D][N],len;
int find(char *x){
    int i;
    for(i = 0;i<=len;i++)
        if(!strcmp(str[i], x))
            return i;
    strcpy(str[++len], x);
    return len;
}
void learning(){
    int i,j;
    clr(condition, 0);
    clr(prior, 0);
    len = -1;
    for(i = 0;i<TRAIN;i++)
        scanf("%lf,%lf,%lf,%lf,%s\n",&data[i][0],&a