数据挖掘

    最近在看《信息资源管理》的时候,在信息分析阶段,信息方法分析中提到了数据挖掘,出于对这个内容的好奇,对这个问题自己详细的理解一下,才知道里面蕴含着这么多的知识。

  Ø  什么是数据挖掘

    书上语:数据挖掘是从大量的、不完全的、有噪音的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

    百度百科:数据挖掘(DataMining,DM)是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。

  Ø  为什么要进行数据挖掘?

    下面由一个小故事来看看:

    啤酒和尿布的关系

    也许很多人不相信啤酒和尿布会有关系,但是这却是数据挖掘的典型故事。故事发生在美国最大的沃尔玛超市。某个夏季,沃尔玛的销售数据显示这段时间啤酒和纸尿布的销量同时有大幅度的增长,通过销售记录分析,发现的确有顾客同时购买这两种东西,于是进行观察,发现了这个秘密,原来同时购买这两种东西的是25~35岁的男性,也就是家里有孩子的爸爸们。他们下班后会在太太的嘱托下为自己的孩子买纸尿布,同时也会为自己买几瓶啤酒。

于是沃尔玛重新调整了货架,把啤酒和纸尿布放在相邻的位置,并且加上一些促销手段,这样使得两者的销量都提升了。

    所以数据挖掘的间接结果就是带来了利润。不仅是因为这个故事,更是因为在这个信息大爆炸的时代,如何在看似不相关的数据间找出联系是各行各业人都关心的问题。

  Ø  常用方法和技术

   u  关联分析

    即利用关联规则进行数据挖掘。关联分析的目的是挖掘隐藏在数据间的相互关系

   u  决策树

    决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由quinlan提出的著名的基于信息熵的id3算法。它的主要问题是:id3是非递增学习算法;id3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如 schlimmer和fisher设计了id4递增式学习算法;钟鸣,陈文伟等提出了ible算法等。

   u  粗糙集

    粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。但粗集的数学基础是集合论,难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。

   u  遗传算法

    遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。

   u  归纳学习

    从大量的经验数据中归纳抽取出一般的规则和模式。

  Ø  小结

    信息技术的发展促使数据挖掘将会在不同的行业起到举足轻重的作用,数据挖掘不是为了替代传统的统计分析技术。相反,他是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。而随着计算机计算能力的不断增强,我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值