支持Python编程接口的开源数据挖掘软件Orange

最新推荐文章于 2024-09-14 22:51:14 发布

ren911

最新推荐文章于 2024-09-14 22:51:14 发布

阅读量4.8k

点赞数 1

文章标签：数据挖掘 python 编程 classification 图形 encoding

转自： http://www.how2dns.com/blog/?p=352

如果熟悉Java，考虑数据挖掘时通常会想到Weka，加上Ian H. Witten写的那本Data Mining: Practical Machine Learning Tools and Techniques有中文版, 所以用的人比较多。最近想用Python处理一下数据，想找个用能用Python编程的数据挖掘软件。在之前转的那篇《五个开源数据挖掘软件》里提到开源数据挖掘软件 Orange，@IDMer编译的这篇《开源的数据挖掘工具》中对几种开源软件进行了更详细的介绍和比较。Orange的特点是界面友好易于使用，提供大量可视化方法，提供Python编程接口，于是决定试用一下。

网上可以搜索到的Orange中文资料不多，这篇《利用orange进行关联规则挖掘》给了一个通过Python调用Orange中的Apriori算法进行关联分析的例子，更详细的通过Python调用Orange的文档参考官网上的Beginning with Orange.图形界面的使用没看到文档，不过界面简单易懂，看看features里的screenshots也可猜个大概。参考Beginning with Orange中的Classification小节，以用Naive Bayesian Classifer处理Orange自带的示例数据集voting.tab为例，对代码做了少量修改：

#-*- encoding: utf-8 -*-
# 导入orange包
import orange
# 导入测试数据voting.tab
data = orange.ExampleTable("voting")
# 使用Naive Bayesian Classifer
classifier = orange.BayesLearner(data)
 
# 输出
all_data = len(data)
bingo = 0
 
for d in data:
     
# 分类器输出的类别
    cc = classifier(d)
    
# 原文件中数据中的类别
    oc = d.getclass()
    if oc == cc:
        print 'bingo!',
        bingo += 1
    else:
        print 'oh,no!',
    print "original", oc, "classified as", cc
# 输出Classification Accuracy
print "CA: %.4f" % (float(bingo)/all_data)

运行上面的代码，可得到如下输出：
bingo! original republican classified as republican
……
bingo! original republican classified as republican
bingo! original republican classified as republican
CA: 0.9034
分类准确率CA为0.9034.
Python调用非常容易，只用了十几行代码，不过如果用图形界面，这个简单的分类只需要选择Data->File，Classify->Naive Bayes和Evaluate->Test Learners就行了，如下图所示，在File窗口中选择Data File为voting.tab，通过简单的拖拉将widget连起来即可，双击Test Learners可以看到CA为0.9011.

对比Python代码的输出和图形界面的结果，会发现两个结果不一致，原因是图形界面中使用的是5重交叉验证，而代码中使用的训练数据，如果选择”Test on train data”，两者就一致了。

简单的使用就是这些了，更复杂的使用还需要进一步摸索。