【数据挖掘】朴素贝叶斯算法计算ROC曲线的面积

题记:

         近来关于数据挖掘学习过程中,学习到朴素贝叶斯运算ROC曲线。也是本节实验课题,roc曲线的计算原理以及如果统计TP、FP、TN、FN、TPR、FPR、ROC面积等等。往往运用ROC面积评估模型准确率,一般认为越接近0.5,模型准确率越低,最好状态接近1,完全正确的模型面积为1.下面进行展开介绍:


 

ROC曲线的面积计算原理

一、朴素贝叶斯法的工作过程框架图

             

二、利用weka工具,找到训练的预处理数据          

1、利用朴素贝叶斯算法对weather.nominal.arff文件进行处理,然后选择temperature打开,选择编辑找到预处理数据如图1-1所示:

 

图1-1 完整天气数据信息图

2、根据上面的训练元组计算每个类的先验概率,公式为P(C)

     2.1、计算先验概率

            P(play=yes)=9/14=0.643

            P(play=no)=5/14=0.357

     2.2、 计算条件概率,根据公式P(X|C)

 

3、再根据公式(展示其中一个元组进行概率分类X= (outlook=sunny,temperature=mid,humidity=yes,windy=sunny)代入上述数据:

      3.1、 P(X|paly=yes)=P(outlook=sunny|play=yes)* P(temperature=mid|play=yes)* P(humidity=yes|play=yes)* P (outlook=sunny|play=yes))

                同理计算:P(X|paly=no)

       3.2、通过结果比较,得出元组play

       3.3、然后进行概率的计算

4、再引用《数据挖掘概念与技术》中P244页方法,如图1-2所示:

 

图1-2 返回数据样例

 

如上图为样例非真实数据:因为根据3.3可以计算每个元组的概率,利用概率大小进行类的排序。再根据先验概率进行TP、FP、TN、FN的真实数据,并且不难算出TPR和FPR的数据

5、再引用《数据挖掘概念与技术》中P245页知识,以FPR作为x轴,TPR作为Y轴,绘制数据的ROC曲线,将4中的数据分别代入进去,得到如图1-3所示:

 

 

图1-3 返回数据图

根据以上图形,利用数学方法得到ROC曲线面积为0.9222.然后再利用weka查看工具数据,如图1-4所示:

 

图1-4 weka返回数据

 

参考资料:

[1]  使用Weka进行数据挖掘http://www.cnblogs.com/bluewelkin/p/3538599.html

[2]  WEKA使用(基础配置+垃圾邮件过滤+聚类分析+关联挖掘)http://www.cnblogs.com/bitpeach/p/3770606.html

[3] ROC曲线下面积的计算方法(http://wenku.baidu.com/view/3d2ac9202f60ddccda38a07a.html?re=view

[4] 韩家炜,数据挖掘概念与技术,P243-P245。

[5] 分类(数据挖掘) (http://wenku.baidu.com/link?url=EdT7Xxs-a_423oM-48ih-KxtTEPrXeejci0-XSM1yk9xbkZGTvWqyiZNpZwUA8a-dlf-kReHlS63u9PXXXuDJFCsdmbpZ2kex5BhwTysWHe&qq-pf-to=pcqq.c2c

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
叶斯分类器是一种基于叶斯定理的分类方法,其核心思想是利用训练数据集中的先验概率和条件概率,通过叶斯公式计算出后验概率,从而实现对新数据的分类。在数据挖掘领域,叶斯分类器常常被应用于文本分类、垃圾邮件过滤、情感分析等任务中。 下面是一个使用叶斯分类器进行文本分类的实验结果数据分析: 数据集:20 Newsgroups,该数据集包含20个不同主题的新闻组文章,每个主题包含数百篇文章。 实验步骤: 1. 将数据集分为训练集和测试集,其中训练集占80%,测试集占20%。 2. 对训练集中的文本进行预处理,包括去除停用词、词干提取等操作,得到文本的词袋表示。 3. 使用朴素叶斯分类器对训练集中的文本进行分类,得到分类器模型。 4. 使用分类器模型对测试集中的文本进行分类,得到分类结果。 实验结果: 训练集大小:11314篇文章,测试集大小:7532篇文章。 分类器精度:78.8% 分类器召回率:76.9% 分类器F1值:0.78 分类器ROC曲线面积:0.88 实验分析: 从实验结果可以看出,使用朴素叶斯分类器对20 Newsgroups数据集进行分类,分类器的精度和召回率都达到了较高的水平,F1值也接近于1,表明分类器的效果较为优秀。此外,分类器的ROC曲线面积也达到了0.88,说明分类器的真阳性率和假阳性率都比较高,能够较好地区分正负样本。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值