唐良ID:tangl_99
424580次访问,排名107好友0人,关注者1
tangl_99的文章
原创 182 篇
翻译 0 篇
转载 36 篇
评论 622 篇
最近评论
d:http://www.chinaburners.com燃烧器|燃烧器油泵|燃烧器油嘴|燃烧机配件|燃油燃烧器|燃气燃烧器|燃烧器配件|电磁泵|点火变压器|锅炉燃烧器|威索燃烧器|利雅路燃烧器|百得燃烧器|奥林燃烧器
http://www.chinaburners.com/CP_pj.htm油嘴,喷嘴,燃烧器配件,燃油燃烧器喷嘴,燃油燃烧器油嘴,比例式油嘴,比例式喷嘴,Danfoss……
agjyfm:wow gold
chinaren0001:非常感谢,正开始学习。
ede:写的不错哟,支持一下,一直在关注你,昆明青年旅行社专业接待云南旅游,网址:http://www.gwyou.com
fucking bsd:to bsd:
你TM是条野狗啊
文章分类
收藏
    相册
    链接
    高等数学复习公式
    我的简历
    英文简历
    存档
    软件项目交易
    订阅我的博客
    XML聚合  FeedSky
    订阅到鲜果
    订阅到Google
    订阅到抓虾
    订阅到BlogLines
    订阅到Yahoo
    订阅到GouGou
    订阅到飞鸽
    订阅到Rojo
    订阅到newsgator
    订阅到netvibes

    原创 openminer中挖掘关联规则的算法实现概述收藏

    新一篇: JDBC中获取数据表的信息 | 旧一篇: 简单的开题报告后

       关联规则挖掘算法很简单,比如Apriori,FPG这些都是典型的基础算法。但是一般的书籍却很少提到如何在真是的数据库上实现。真实的数据库不一定是海量数据库,哪怕是一个记录超过1W的关系表,如果属性很多,超过20个,那么中间过程中产生的候选项集也是很庞大的。其实所需的内存主要是保存候选项集和频繁项集。

       候选项集的产生是组合交叉产生的,如果以组合公式来计算,属性个数N=20,那么产生的候选项集中,最大可以达到2^20-1项,大约就是1MB个候选项。而如果属性个数超过32个,那么最大的候选个数就超过4GB,即使一个候选项只保存一个字节,也达到了32位机器的内存极限了。显然,无论如何,候选项集是不能保存在内存中的。

      现在大部分的书上的关联挖掘讲解都是基于算法演示,也没有多少运用于实际的数据库项目。OpenMiner里面需要关联挖掘的事务数据的事务项可能超过200个,显然不能同于一般数据挖掘教材上的那些算法了。

      OpenMiner的关联挖掘实现的核心算法跟一般的基于内存的是一致的,唯一不同的就是将中间结果,候选项集和频繁项集,存放于外存。当然,也不是完全存放于外存,只是大部分存放于外存,当前需要多次访问的还是存放在内存中。访问外存的速度远比访问内存速度慢,而且OpenMiner的支持多种外存存储介质,可以是OpenMiner自己建立的磁盘文件,也可以是系统数据库里面的数据表。OpenMiner是推荐使用后者作为其中间结果的保存,因为数据库管理系统能够提供更好的候选式和频繁式的查询和提取效率。而通过Hibernate这样的O/R Mapping工具,数据挖掘使用者可以很方便地将数据表映射成Java里面的常用数据结构对象,比如List这些,这一层就可以对于Apriori,FPG算法模块来说做到透明了。

       上述办法,OpenMiner解决了内存有限的问题,但是效率方面并没有解决。其实关于提高Apriori效率的研究早就已经有很多论文了。比如基于Hash-Tree的Apriori,以及后面的FPG等等,都是解决速度的不错方法,但是无论如何,关联挖掘的在进行支持度查找的时候,每次都要遍历整个数据表,实在快不起来。

     

     

    发表于 @ 2006年03月12日 00:52:00|评论(loading...)|编辑

    新一篇: JDBC中获取数据表的信息 | 旧一篇: 简单的开题报告后

    评论

    #gsprin999 发表于2008-05-02 15:59:16  IP: 139.18.25.*
    你好, 我从sourceforge上下载了openminer的代码,但是我想测试运行起来好像还需要挖掘模型定义文件,你能把一个挖掘模型文件和数据库的示例发给我一份吗,非常感谢,
    gsprin999@gmail.com
    #tangl_99 发表于2008-05-04 13:50:07  IP: 211.83.146.*
    你好!sourceforge上的openminer代码是比较老的版本了。之前的代码结构上有一些问题,最近改动很大。有新的版本的时候,我再发邮件通知你,行不?
    发表评论  


    登录
    Csdn Blog version 3.1a
    Copyright © tangl_99