数据挖掘
文章平均质量分 84
fumin
这个作者很懒,什么都没留下…
展开
-
数据挖掘概念
人们对于数据的拥有欲是贪婪的,特别是计算机网络技术和存储技术的发展加速了人们收集数据的范围和容量。这种贪婪的结果导致了“数据丰富而知识贫乏”现象的产生。说来惭愧,我的硬盘里有一个18GB的资料文件夹,里面都是本人长期收集的电子书,涵盖了计算机科学与技术的各个领域,但是至今绝大多数都是没有看过的。数据是具体的,知识是一种概念、规则、模式和规律;数据不能直接对我们产生帮助,只有从中产生了知识才能帮助我原创 2011-11-15 14:47:21 · 2320 阅读 · 0 评论 -
谁养鱼(三):如何让计算机认识线索
在谁养鱼问题中给出了15条线索,如何让计算机识别这些线索,并作出正确的判断呢?因为房子的顺序是固定,给它们编号1、2、3、4、5。每个房子都有五种类型的属性,分别是颜色、国籍、饮料、宠物、香烟,并且不同的房子之间相同类型的属性是不同的。通过观察可以发现,线索可以分为三类:固定线索,绑定线索和相邻线索。固定线索指的将某个属性固定在某个序号的房子,比如线索8和线索9,分别将牛奶固定在中间房原创 2011-11-25 21:52:44 · 1936 阅读 · 0 评论 -
谁养鱼(一):人工解法
题目:据说有五个不同颜色的房间排成一排,每个房间里分别住着一个不同国籍的人,每个人都喝 一种特定品牌的饮料,抽一种特定品牌的烟,养一种宠物,没有任意两个人抽相同品牌的香烟,或喝相同品牌的饮料,或养相同的宠物,问题是谁在养鱼作为宠物? 为了寻找答案,给出了十五条线索:英国人住在红色的房子里;瑞典人养狗作为宠物;丹麦人喝茶;绿房子紧挨着白房子,在白房子的左边;绿房子的主人喝咖啡;抽Pall原创 2011-11-21 23:02:05 · 3464 阅读 · 1 评论 -
谁养鱼(四):遗传算法的实现
1 简介根据达尔文的进化论,生物种群从低级、简单的类型逐渐发展成为高级、复杂的类型。各种生物要生存下去就必须进行生存斗争,具有较强生存能力的生物个体容易存活下来,并有较多的机会产生后代;具有较低生存能力的生物则被淘汰,或者产生后代的机会越来越少,直至消亡。遗传算法借鉴了生物界自然选择、遗传变异机制,将种群代表一组问题的解,通过对当前种群施加选择、交叉和变异等一系列遗传操作,从而产生新一原创 2011-11-28 19:13:30 · 4297 阅读 · 2 评论 -
谁养鱼(二):如何将排列映射到整数域
今天又考虑了一下谁养鱼的问题,觉得用遗传算法来解题值得一试,但是主要的难点有三:如何让计算机理解线索?即如何表示绑定、相邻等关系?比如丹麦人喝茶的绑定关系,绿房子在白房子左边的左相邻关系等。问题空间和遗传空间如何转换?问题空间是红黄蓝绿白这样的排列,如何将其转换成遗传空间的二进制编码?也就是编码问题。遗传算法如何设计?包括种群规模,初始化,适应度函数,选择、交差、变异算子,终止条件等。原创 2011-11-23 14:59:41 · 2769 阅读 · 0 评论 -
关联规则挖掘(一):基本概念
本文主要来自《数据仓库和数据挖掘》一书,这本书讲的和维基百科里的非常相似,怀疑是从某本外文书籍里翻译过来的。关联规则挖掘(Association rule mining)是数据挖掘中最活跃的研究方法之一,可以用来发现事情之间的联系,最早是为了发现超市交易数据库中不同的商品之间的关系。这里有一则沃尔玛超市的趣闻。沃尔玛曾今对数据仓库中一年多的原始交易数据进行了详细的分析,发现与尿布一起被原创 2011-12-07 11:04:44 · 29272 阅读 · 3 评论 -
关联规则挖掘(二):Apriori算法
1 算法简介在数据挖掘领域,Apriori算法是挖掘关联规则的经典算法。Apriori算法采用的是自底向上的方法,从1-频繁集开始,逐步找出高阶频繁集。它的基本流程是:第一次扫描交易数据库D时,产生1-频繁集。在此基础上经过连接、修剪产生2-频繁集。以此类推,直到无法产生更高阶的频繁集为止。在第k次循环中,也就是产生k-频繁集的时候,首先产生k-候选集,k-候选集中每一个项集都是对两个原创 2011-12-08 21:11:04 · 14661 阅读 · 1 评论