贝叶斯分类器--文本分类的C语言实现

最新推荐文章于 2021-08-24 13:50:51 发布
godenlove007
最新推荐文章于 2021-08-24 13:50:51 发布
阅读量6.8k
点赞数 2
分类专栏：机器学习文章标签：机器学习贝叶斯文本分类
机器学习专栏收录该内容
31 篇文章 0 订阅
订阅专栏
本文转载自：http://blog.csdn.net/caiye917015406/article/details/7887221，谢谢原作者！
==============================================================================
第一个是用c语言做的关于文本的分类，主要是对待分类文本所有单词在模板中概率的后验计算。算法比较简单，从网上下的（没记下地址，若不愿意公开，请留言，自当处理），稍作了一点修改。。，等有时间可以实现垃圾邮件的分类，利用斯坦福机器学习公开课中方法，统计高频词，利用朴素贝叶斯。等有时间和大家分享。
[cpp]view plaincopy 
   
 #include <stdio.h>  
 #include <string.h>  
 #include <direct.h> //_getcwd(), _chdir()  
 #include <stdlib.h> //_MAX_PATH, system()  
 #include <io.h> //_finddata_t, _findfirst(), _findnext(), _findclose()  
 #include<iostream>  
 using namespace std;  
 //#include<fstream>  
 char vocabulary[1000][20];/*声明公有二维数组，用来存储分割好的单词*/  
   
   
 /*=================将要分类的文本分割成单词存储在二维数组vocabulary中================*/  
 //@输入参数：要分类的文本  
 //@输出参数：该文本中总单词数  
   
 int SplitToWord(char text[])  
 {  
 int i=0;  
 char seps[]=", .\n"; /*定义单词的分隔符*/   
 char *substring;   
   
 /******利用分隔符将文本内容分割成单词并存储******/  
 substring=strtok(text,seps);   
 while(substring!=NULL)   
 {     
    strcpy(vocabulary[i],substring);//将单词存储到vocabulary数组中   
    substring=strtok(NULL,seps);   
    i++;  
 }  
 return i; //返回一共多少个单词  
 }  
   
   
 /*===============================计算该目录下的文件数================================*/  
 //@输入参数：无  
 //@输出参数：该目录下.txt文件数  
   
 int CountDirectory()  
 {  
 int count=0; //txt文件计数器  
 long hFile;  
     _finddata_t fileinfo;  
   
 /********查找.txt文件，记录文件数**********/  
     if ((hFile=_findfirst("*.txt",&fileinfo))!=-1L)  
     {  
         do  
         {              
     count++;  
         } while (_findnext(hFile,&fileinfo) == 0);  
 }  
 return count;  
 }  
   
   
 /*===================================计算某类别中∏P(ai|vj)===================================*/  
 //@输入参数：分类文本中单词数  
 //@输出参数：该类别下∏P(ai|vj)  
   
 float CalculateWordProbability(int wordCount)  
 {  
 int countSame; //分类文本中的某单词在所有训练样本中出现次数  
 int countAll=0; //训练样本中总单词数  
 char token;  
 FILE *fp;  
 float wordProbability=1; //为后面联乘做准备  
 int i,j;  
 long hFile;  
     _finddata_t fileinfo;  
   
   
 for(j=0;j<wordCount;j++) //对于分类样本中的每一个单词  
 {  
    countSame=0;  
    countAll=0;  
    if((hFile=_findfirst("*.txt",&fileinfo))!=-1L) //对于该类别下每一个.txt文本  
    {  
     do  
     {  
      if((fp=fopen(fileinfo.name,"r"))==NULL) //是否能打开该文本  
      {  
       printf("Sorry!Cannot open the file!\n");  
       exit(0);  
      }  
   
      /********存储此.txt文件中每个单词并与分类文本的单词作比较*******/  
      while((token = fgetc(fp)) != EOF)   
      {  
       char keyword[1024];   
       i = 0;   
        
       keyword[0] = token; // 将每个词第一个字符赋给数组第一个元素  
       while ((keyword[++i] = fgetc(fp)) != ' ' && keyword[i] != '\t' && keyword[i] != EOF && keyword[i] != '\n'); // 开始读字符，直到遇到空白符，说明找到一个词   
       keyword[i] = '\0';// 加结束符  
       countAll++;  
   
       if (strcmp(keyword,vocabulary[j]) == 0) //比较两个单词是否相同  
        countSame++;  
      }  
      fclose(fp);  
   
     }while (_findnext(hFile,&fileinfo) == 0);   
    }  
    wordProbability*=(float)(countSame+1)/(float)(wordCount+countAll)*300; //计算∏P(wj|vi)，为了扩大效果而*380  
 }  
   
 return wordProbability;  
 }  
     
   
 /*============================计算每个类别的最终概率输出结果===============================*/  
 //@输入参数：分类文本中单词数  
     
 void CalculateProbability(int wordCount,int num)  
 {  
 /*********将类别表存储在二维数组中*********/  
 FILE *fp;  
 char classList[10][20]; //类别列表  
     char ch;    //临时读取字符使用  
     int index=0; //classList的行标  
     int className_c=0; //classList的列标  
   
 if((fp=fopen("ClassList.txt","r"))==NULL)  
     {  
         printf("Failed to open the file: ClassList.txt.\n");  
     }  
     ch = fgetc(fp);  
     while(ch!=EOF)  
     {  
         if(ch!='\n')  
         {  
             classList[index][className_c]=ch;  
             className_c++;  
         }  
         else  
         {  
             classList[index][className_c]='\0';  
             index++;  
             className_c=0;  
         }  
    ch = fgetc(fp);  
 }  
   
 /********计算总文本数和每个类别下的文本数、∏P(ai|vj)********/  
 int txtCount[10]; //每个类别下的训练文本数  
 int countAll=0; //训练集中总文本数  
 float wordProbability[10]; //每个类别的单词概率，即∏P(ai|vj)  
   
 if(_chdir("D:\\openCV\\openCVProject\\openCVtext\\贝叶斯（文本分类）—c语言\\example\\1")) //更改当前绝对路径  
      printf("系统找不到指定路径!\n");  
 else  
 {  
    txtCount[0]=CountDirectory(); //获取该类别下.txt文件数  
    countAll+=txtCount[0];  
    wordProbability[0]=CalculateWordProbability(wordCount); //获取该类别下∏P(wj|vi)  
 }  
 if(_chdir("D:\\openCV\\openCVProject\\openCVtext\\贝叶斯（文本分类）—c语言\\example\\2")) //更改当前绝对路径  
    printf("系统找不到指定路径!\n");  
 else  
 {  
    txtCount[1]=CountDirectory(); //获取该类别下.txt文件数  
    countAll+=txtCount[1];  
    wordProbability[1]=CalculateWordProbability(wordCount); //获取该类别下∏P(wj|vi)  
 }  
 if(_chdir("D:\\openCV\\openCVProject\\openCVtext\\贝叶斯（文本分类）—c语言\\example\\3")) //更改当前绝对路径  
      printf("系统找不到指定路径!\n");  
 else  
 {  
    txtCount[2]=CountDirectory(); //获取该类别下.txt文件数  
    countAll+=txtCount[2];  
    wordProbability[2]=CalculateWordProbability(wordCount); //获取该类别下∏P(wj|vi)  
 }  
 if(_chdir("D:\\openCV\\openCVProject\\openCVtext\\贝叶斯（文本分类）—c语言\\example\\4")) //更改当前绝对路径  
      printf("系统找不到指定路径!\n");  
 else  
 {  
    txtCount[3]=CountDirectory(); //获取该类别下.txt文件数  
    countAll+=txtCount[3];  
    wordProbability[3]=CalculateWordProbability(wordCount); //获取该类别下∏P(wj|vi)  
 }  
 if(_chdir("D:\\openCV\\openCVProject\\openCVtext\\贝叶斯（文本分类）—c语言\\example\\5")) //更改当前绝对路径  
      printf("系统找不到指定路径!\n");  
 else  
 {  
    txtCount[4]=CountDirectory(); //获取该类别下.txt文件数  
    countAll+=txtCount[4];  
    wordProbability[4]=CalculateWordProbability(wordCount); //获取该类别下∏P(wj|vi)  
 }  
 if(_chdir("D:\\openCV\\openCVProject\\openCVtext\\贝叶斯（文本分类）—c语言\\example\\6")) //更改当前绝对路径  
      printf("系统找不到指定路径!\n");  
 else  
 {  
    txtCount[5]=CountDirectory(); //获取该类别下.txt文件数  
    countAll+=txtCount[5];  
    wordProbability[5]=CalculateWordProbability(wordCount); //获取该类别下∏P(wj|vi)  
 }  
 if(_chdir("D:\\openCV\\openCVProject\\openCVtext\\贝叶斯（文本分类）—c语言\\example\\7")) //更改当前绝对路径  
      printf("系统找不到指定路径!\n");  
 else  
 {  
    txtCount[6]=CountDirectory(); //获取该类别下.txt文件数  
    countAll+=txtCount[6];  
    wordProbability[6]=CalculateWordProbability(wordCount); //获取该类别下∏P(wj|vi)  
 }  
 if(_chdir("D:\\openCV\\openCVProject\\openCVtext\\贝叶斯（文本分类）—c语言\\example\\8")) //更改当前绝对路径  
      printf("系统找不到指定路径!\n");  
 else  
 {  
    txtCount[7]=CountDirectory(); //获取该类别下.txt文件数  
    countAll+=txtCount[7];  
    wordProbability[7]=CalculateWordProbability(wordCount); //获取该类别下∏P(wj|vi)  
 }  
 if(_chdir("D:\\openCV\\openCVProject\\openCVtext\\贝叶斯（文本分类）—c语言\\example\\9")) //更改当前绝对路径  
      printf("系统找不到指定路径!\n");  
 else  
 {  
    txtCount[8]=CountDirectory(); //获取该类别下.txt文件数  
    countAll+=txtCount[8];  
    wordProbability[8]=CalculateWordProbability(wordCount); //获取该类别下∏P(wj|vi)  
 }  
 if(_chdir("D:\\openCV\\openCVProject\\openCVtext\\贝叶斯（文本分类）—c语言\\example\\10")) //更改当前绝对路径  
      printf("系统找不到指定路径!\n");  
 else  
 {  
    txtCount[9]=CountDirectory(); //获取该类别下.txt文件数  
    countAll+=txtCount[9];  
    wordProbability[9]=CalculateWordProbability(wordCount); //获取该类别下∏P(wj|vi)  
 }  
   
 /*******计算先验概率和最终概率并输出分类结果*******/  
 float max=0;  
 int classNo=0;  
 float priorProbability[10];  
 float finalProbability[10];  
   
 for(int i=0;i<num;i++)   
 {  
    priorProbability[i]=(float)txtCount[i]/(float)countAll; //先验概率  
    finalProbability[i]=priorProbability[i]*wordProbability[i]; //最终概率  
    if(finalProbability[i]>max) //找到最大概率并记录  
    {  
     max=finalProbability[i];  
     classNo=i;  
    }  
    printf("该文本为类别%s的概率为:%.5e\n",classList[i],finalProbability[i]); //输出每个类别的最终概率  
 }  
 printf("\n经分析，该文本最有可能为%s类文本!\n",classList[classNo]); //输出最后分类结果  
 }  
   
   
 /*===================调用文本分割函数和计算最终概率函数======================*/  
 //@输入参数：分类文本  
   
 void NaiveBayesClassifier(char text[],int num)  
 {  
 int vocabularyCount;//分类样本中单词数  
   
 vocabularyCount=SplitToWord(text); //对要分类的文本进行单词分割，结果存储在vocabulary数组中，返回分类样本中单词数  
 CalculateProbability(vocabularyCount,num); //计算最终概率  
 }  
   
   
 /*===================程序入口====================*/  
 int main()  
 {  
    FILE *fp;  
    if((fp=fopen("text.txt","r"))==NULL)  
    {  
         printf("Failed to open the file: ClassList.txt.\n");  
    }  
    char ch = fgetc(fp);  
    int i=0;  
    while(ch!=EOF)  
    {  
        ch = fgetc(fp);  
        i++;  
    }  
    char *text=new char(i+1);  
    fseek(fp,0,SEEK_SET);//  
    ch = fgetc(fp);  
    int j=0;  
    while(ch!=EOF)  
    {  
        ch = fgetc(fp);  
        cout<<ch;  
        text[j]=ch;  
        j++;  
    }  
   // char text[]=new char(i);;  
    int num = 2;  
   
    NaiveBayesClassifier(text,num); /*调用朴素贝叶斯分类函数，返回最终分类结果*/  
 return 1;  
 }