一.数据挖掘的起源
事实上,数据挖掘并不是近几年才出现的技术。只是近年来,随着传感器技术,和以RFID,NFC,3g,4g,WiFi,蓝牙,ZigBee等为代表的无线通讯技术的飞速发展,各行各业每分每秒都在源源不断产生着数据。几乎所有的人类行为,都可以在数据中找到或深或浅痕迹。因此,人们很自然的想到,通过数据了解自己,也通过数据了解对手,更通过数据了解环境和周围的人。兵法有云,"知己知彼,百战不殆。天时不如地利,地利不如人和"。而在当下,数据成了知己知彼知天知地知人的根据,而数据挖掘技术就是利器。随着大数据的逐渐崛起,数据挖掘的价值愈发凸显。它历经了以下几个具体的发展阶段。
第一阶段:电子邮件阶段
这个阶段可以认为是从70年代开始,平均的通讯量以每年几倍的速度增长。
第二阶段:信息发布阶段
从1995年起,以Web技术为代表的信息发布系统,爆炸式地成长起来,成为目前Internet的主要应用。中小企业如何把握好从“粗放型”到“精准型”营销时代的电子商务。
第三阶段: EC(ElectronicCommerce),即电子商务阶段
EC在美国也才刚刚开始,之所以把EC列为一个划时代的东西,是因为Internet的最终主要商业用途,就是电子商务。同时反过来也可以说,若干年后的商业信息,主要是通过Internet传递。Internet即将成为我们这个商业信息社会的神经系统。1997年底在加拿大温哥华举行的第五次亚太经合组织非正式首脑会议(APEC)上美国总统克林顿提出敦促各国共同促进电子商务发展的议案,其引起了全球首脑的关注,IBM、HP和Sun等国际著名的信息技术厂商已经宣布1998年为电子商务年。
第四阶段:全程电子商务阶段
随着SaaS(Software as a service)软件服务模式的出现,软件纷纷登陆互联网,延长了电子商务链条,形成了当下最新的“全程电子商务”概念模式。也因此形成了一门独立的学科——数据挖掘与客户关系管理硕士。
二.数据挖掘的标准方法
古人云"事无定法",意思是说,做成一件事,没有固定的方法。这是鼓励人们创新,试着采用新的方法来做事。这样的尝试常常可以产生出更加有效快捷的方法。可既然是尝试,不走弯路是不可能的。所以如果你急需进行数据挖掘,我就不建议你自己去摸索尝试了。毕竟有前车之鉴,咱们干起来更快捷,更高效一些,等用熟练了"定法",对它温故而知新,可能到达更高。
下面我们就来说一下"定法"–CRISP-DM。
CRISP-DM (cross-industry standard process for data mining),即为"跨行业数据挖掘标准流程"。此KDD过程模型于1999年欧盟机构联合起草。
它的流程如下图所示
它分为六个步骤:商业理解,数据理解,数据准备,建立模型,模型评估,发布模型。
每一步的具体做法如下:
1.商业理解
决定工作目的
评价数据挖掘的目的
状况评价
树立项目计划
2.数据理解
初步收集数据
数据探索
数据技术
检验数据质量
3.数据准备
数据设定
数据选择
数据清洗/生成/综合
适合的数据形式
4.建立模型(modeling)
建模方法选择
生成测试设计
生成模型
模型评价
5.模型评估
结果评价
过程再检验
后续阶段检验
6.发布模型(执行)
树立执行计划
树立调控/维持计划
编写最终报告书
项目再检验
这部分内容不够详尽,也正因为这样,不会对实施过程产生过多的限制,保持了初次尝试的极大自由度,算是一种有方向的探索吧!