什么是数据挖掘

关于什么是数据挖掘,很多学者和专家给出了不同的定义,以下我们列出几种常见的说法:

“简单地说,数据挖掘是从大量数据中提取或‘挖掘’知识。该术语实际上有点用词不当。数据挖掘应当更正确地命名为‘从数据中挖掘知识’,不幸的是它有点长。许多人把数据挖掘视为另一个常用的术语‘数据库中知识发现’或KDD的同义词。而另一些人只是把数据挖掘视为数据库中知识发现过程的一个基本步骤。” ——《数据挖掘:概念与技术》(J. Han and M. Kamber

“数据挖掘就是对观测到的数据集(经常是很庞大的)进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。”——《数据挖掘原理》(David Hand, et al

“运用基于计算机的方法,包括新技术,从而在数据中获得有用知识的整个过程,就叫做数据挖掘。”——《数据挖掘--概念、模型、方法和算法》(Mehmed Kantardzic

“数据挖掘,简单地说,就是从一个数据库中自动地发现相关模式。”——《构建面向CRM的数据挖掘应用》(Alex Berson, et al

“数据挖掘(DM)是从大型数据库中将隐藏的预测信息抽取出来的过程。”——《数据挖掘:机遇与挑战》(John Wang

而作为数据挖掘领域的华人第一人,韩家炜教授在《数据挖掘:概念与技术》的教学幻灯片中,给出一个更清晰的定义:“数据挖掘,就是从大型数据库中抽取有意义的(非平凡的,隐含的,以前未知的并且是有潜在价值的)信息或模式的过程。”

这里我们可以看到数据挖掘具有以下几个特点:

l         基于大量数据:并非说小数据量上就不可以进行挖掘,实际上大多数数据挖掘的算法都可以在小数据量上运行并得到结果。但是,一方面过小的数据量完全可以通过人工分析来总结规律,另一方面来说,小数据量常常无法反映出真实世界中的普遍特性。

l         非 平凡性:所谓非平凡,指的是挖掘出来的知识应该是不简单的,绝不能是类似某著名体育评论员所说的“经过我的计算,我发现了一个有趣的现象,到本场比赛结束 为止,这届世界杯的进球数和失球数是一样的。非常的巧合!”那种知识。这点看起来勿庸赘言,但是很多不懂业务知识的数据挖掘新手却常常犯这种错误。

l         隐含性:数据挖掘是要发现深藏在数据内部的知识,而不是那些直接浮现在数据表面的信息。常用的BI工具,例如报表和OLAP,完全可以让用户找出这些信息。

l         新奇性:挖掘出来的知识应该是以前未知的,否则只不过是验证了业务专家的经验而已。只有全新的知识,才可以帮助企业获得进一步的洞察力。

l         价 值性:挖掘的结果必须能给企业带来直接的或间接的效益。有人说数据挖掘只是“屠龙之技”,看起来神乎其神,却什么用处也没有。这只是一种误解,不可否认的 是在一些数据挖掘项目中,或者因为缺乏明确的业务目标,或者因为数据质量的不足,或者因为人们对改变业务流程的抵制,或者因为挖掘人员的经验不足,都会导 致效果不佳甚至完全没有效果。但大量的成功案例也在证明,数据挖掘的确可以变成提升效益的利器。

“数据挖掘”这个术语是在什么时候被大家普遍接受的,已经难以考证,大约在上世纪90年代开始兴起。其中还有一段趣话。在科研界,最初一直沿用“数据库中的知识发现”(即KDDKnowledge Discovery in Database)。在第一届KDD国际会议中,委员会曾经展开讨论,是继续沿用KDD,还是改名为Data Mining(数据挖掘)?最后大家决定投票表决,采纳票数多的一方的选择。投票结果颇有戏剧性,一共14名委员,其中7位投票赞成KDD,另7位赞成Data Mining。最后一位元老提出“数据挖掘这个术语过于含糊,做科研应该要有知识”,于是在科研界便继续沿用KDD这个术语。而在商用领域,因为“数据库中的知识发现”显得过于冗长,就普遍采用了更加通俗简单的术语——“数据挖掘”。

严 格地说,数据挖掘并不是一个全新的领域,它颇有点“新瓶装旧酒”的意味。组成数据挖掘的三大支柱包括统计学、机器学习和数据库等领域内的研究成果,其它还 包含了可视化、信息科学等内容。数据挖掘纳入了统计学中的回归分析、判别分析、聚类分析以及置信区间等技术,机器学习中的决策树、神经网络等技术,数据库 中的关联分析、序列分析等技术。

3、数据挖掘可以做什么?

数据挖掘的用处有很多,在这里我只想从技术和应用两个层面来简单谈谈。

从 技术层面来说,按照数据挖掘产出的知识可以粗分为两大类:描述型挖掘和预测型挖掘。描述型挖掘是对现有数据的进一步精炼和归纳,从中抽取中更宏观的反映数 据特征的概念描述。举个例子来说,某家银行有几百万客户,数据仓库中存储了每个客户的人口统计信息、账户信息、交易信息、客服联络信息等详细数据。但是银 行不可能清楚地了解每位客户是什么样的客户,客户的消费模式到底是怎样的?这时一般需要把全体客户进行细分,划分为几个客户群,而且这种划分可以保证具有 相似行为、相似价值的客户会被放入同一个群组中。有了这些客户群,银行就能更容易地发现营销机会并制定营销战略。这个例子中所用的挖掘技术是聚类模型,它 就是一种典型的描述型挖掘。

预测型挖掘,顾名思义,就是建立的挖掘模型具备预测能力。这种预测能力可能包括预测哪些客户下个月会流失,哪些客户对促销活动会积极响应,哪些客户的未来价值会成长以及成长多少等等。预测型挖掘常常对企业运营具有更强的指导作用,从而更快地见效。

从应用层面来说,数据挖掘可以应用到很多行业中,包括电信、银行、证券、保险、制造、因特网等等。抛开具体行业的特定应用不谈,在各个行业中一般都会把数据挖掘应用在客户关系管理(CRM)之中。在CRM中的数据挖掘应用,包括客户细分、客户价值分析、客户获取、客户保持、交叉销售和提升销售等等。此外,信用评分、欺诈侦测和文本挖掘等也是常见的应用。

客户细分已经在描述型挖掘的例子中予以阐述,不再赘言。

准 确地评价客户价值是企业成功运营的关键。这里的客户价值不仅仅包括客户当前给企业带来的收入,还包括消耗在客户身上的各种成本,以及客户未来会给企业带来 多少价值。把客户的当前价值和未来价值合起来就构成了对客户整个生命周期(从成为企业的客户到最终流失)价值的综合评价,即LTVLifeTime Value)。当我们明确了解客户价值之后,就可以有针对性地区分对待,尽量留住高价值客户,推动中低价值的客户向高价值发展,并为不同价值的客户提供不同等级的服务。

4、数据挖掘流程及主流工具

限 于篇幅,本文并不想对数据挖掘的技术多加阐述,读者可以阅读一些经典教材来获得相应的知识,比如《数据挖掘:概念与技术》、《数据挖掘原理》、《机器学 习》等。一般来说,常用的数据挖掘技术包括:用于客户细分的聚类算法,用于交叉销售的关联分析和序列分析算法,用于客户价值分析、流失分析、交叉销售的决 策树、神经网络和回归等预测算法,用于互联网的文本挖掘和Web分析等等。

Eric King在“如何在数据挖掘上投资:避免预测型分析中昂贵的项目陷阱的框架”一文(发表于200510月的“DM Review”)中主张数据挖掘是一段旅程,而非终点。他把这段旅程定义为数据挖掘过程。该过程包含如下要素:

l         一个发现过程

l         具有灵活的框架

l         按照清晰定义的策略进行

l         包含多个检查点

l         多次定期的评估

l         允许在反馈环路中对函数进行调整

l         组织为叠代式的架构

很多数据挖掘工具的厂商都对这个过程进行了简化,使之更加清晰。SAS将数据挖掘过程划分为五个阶段: 抽样(Sample),探索(Explore),处理(Manipulate),建模(Model),评估(Assess)。 过去人们常用循环式的饮水器来比喻数据挖掘过程。水(数据)首先涌上第一层(分析阶段),形成漩涡(精炼和反馈),等到聚积了足够多“已经处理过”的水之 后,就溢出来流到下一个更低的层中。不断地进行这种“处理”,直到水流到最低层。在那里它被抽回顶层,开始新一轮的“处理”。数据挖掘和这种层次式的叠代 过程非常相像。甚至在很多数据挖掘算法的内部处理也是如此,比如神经网络算法,就是在数据集上多次运行(epochs),直至发现最优解。

但使用饮水器来比喻数据挖掘过程还不算恰当,因为它没有反映出反馈环路,而反馈环路在数据挖掘过程中是很常见的。例如,通过数据评估可以发现异常的数据,从而要求从源系统中抽取更多的数据。或者,在建模之后,会发现需要更多的记录才能反映总体的分布。

“工欲善其事,必先利其器”。当企业打算运用数据挖掘来改善企业运营时,选择合适的数据挖掘工具就变得很重要了。工具的选择通常会从以下角度来考虑(同时还需结合企业的信息化水平、具体的业务目标、要处理的数据量、对业务流程的改变等因素):

l         数据存取能力:能否访问各种类型的数据,数据接口的效率如何

l         数据准备能力:数据处理能力,包括抽样、过滤、变换、整合、探索等等

l         模型算法的广度和深度:是否支持各种挖掘算法,多模型的比较及部署

l         可视化能力:多种图形展示,交互操作

l         性能:软硬件平台支持,并行,多CPU,多线程,分布式架构

l         对各种用户和行业解决方案的支持能力

l         其它能力支持:中文支持,友好界面,批处理,API,元数据管理等

企业也可以参考第三方评估机构的评测结果,来选择数据挖掘工具,比较权威的评估机构包括GartnerIDC等等。以下引用Gartner2007年第2季度发布的“客户数据挖掘魔力象限”评估报告的部分内容,向大家简单介绍主流的数据挖掘产品。

“最近,著名软件评测商Gartner对数据挖掘领域软件进行了评测,最终的结果是,SASSPSS以及领域中的传统地位仍然位于数据挖掘的领导者象限。异军突起的是KXENPortrait Software,作为远见卓识家而出现。挑战者是一片空白,其它的十余个厂商占据着利基市场。”

“在此项评测中,共有SASSPSSKXENPortrait SoftwareAngoss SoftwareUnicaThinkAnalyticsFair IsaacInfor CRM Epiphany等九家公司入选,这代表着当今的市场情况,在中国市场,主要的数据挖掘工具是SASKXENSPSS。”

2006年第1季度的评估报告中,还曾包含ChordiantTeradata等厂商。

评测的结果参见下图。评估标准主要划分为两个角度:执行力(纵轴)和视角完整性(横轴)。其中执行力的评估包括七个评估标准,分别是产品/服务、市场反应和跟踪记录、总体生存能力、客户体验、市场执行、销售执行/定价和运营能力。视角完整性的评估包括八个评估标准,分别是产品策略、市场理解力、市场策略、销售策略、垂直/行业策略、商业模型、创新能力和地理战略。


  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值