数据挖掘讲座:我所知道的一点Data Mining


赵民德 2003/01/24 


 市场竞争的激烈迫使企业高层寻找更为科学、系统、有效的辅助决策技术和整体解决方案来处理日益复杂的公司事务。毫无疑问,数据挖掘就是很好的选择之一。数据挖掘到底是什么?数据挖掘作为一个过程,是否有章可循、有规可依?企业应该在哪些领域应用数据挖掘技术?目前,数据挖掘的技术咨询、系统集成、工具软件的状况究竟怎样?新年伊始,我们和中国人民大学数据挖掘中心一起精心组织推出这个专题,希望通过这个专题向读者传递实用的信息。 
  Data Mining(数据挖掘,下文简称DM),光是看它的数据量,绝对是一头大象。各家各派对它的看法不同,因为各人摸到的是自己可以摸到的那一部分。我虽然知道,同时也极力呼吁DM应以实用为主,但基本上还是学院派。通常,学院派的人认为,如果一件事一定可以做成,那么也就不免无趣。 
   
  
数据挖掘的缘起 
  

  什么叫Data Mining?关于定义,各人的说法不一。基本上我们可以用一个例子讲清楚:先给你一个大的数据集──假设你可以从中读取数据,下面的问题是:从这里你可以得到什么?从某种角度来看,这是百分之百的统计分析工作,只是数据集太多的缘故罢了。但我们并不想忘记这些数据集是做 IT 的人这么多年来逐渐制造出来的,更何况他们对于如何有效而快速地存储、选取和管理数据,确是有一套真功夫。在 IT 的骨架上把统计的精髓放进去,这的确是对现在这个信息时代的大挑战。 
  

  时代变了,现在的数据来得既多又快还便宜,多到没有人有时间去看的程度。这就如同我们的医疗体系。早先的医生还要望闻问切,在少量的数据中,设法提取、组合出最好的治疗方案。现在则是一个名医,一上午要在门诊医治一百五十个病人以上。他只能凭某种算法、也就是经验来看病:问一两个问题,听一两个问题,然后开药。这种对数据的不同的处理方式是数据挖掘和传统的数据分析的主要区别。 
  

  说实在的,我们已经在某些方面具有相当的信息化程度了。你去任何一家医院看病,哪一个窗口没放着一台PC?医生暗示你可以离开的时候,值班的护士已经在她的 PC 上键入了许多你的资料。于是你直接可以去划价、取药,连下一次的预约也有人安排好了。前天,我去医院借了一张X光片,一位五十多岁的老职员用“一阳指”在键盘上一步一个“脚印”地敲了不知多久,才输入了该有的个人信息,然后大家就都松一口似地让计算机去跑,最后当然是拿到X光片。这时回顾身后,已排了一条长龙。 
  

  这种情况,也暗示着目前信息社会的一类尴尬问题:很多事情都还配不上如此快的计算机—老职员的手指速度固然配不上,我们做统计的人和现有的某些统计方法也配不上,甚至于很多统计观念恐怕也都配不上。于是 IT 的人就跳进来做了个项目:既然有了花大钱做出来的数据库,而且这么多年下来数据堆得满坑满谷,好歹要告诉出钱的老板“这有什么用”。于是,DM便应运而生了。 
  

  
如何看待数据挖掘 
  

  数据挖掘是先有了数据才兴起的行业。我不想说“学问”,因为到现在为止,我好像都看不到大学问。数据挖掘能帮我做什么?不同的人有不同的看法,比较乐观的是Berry and Linoff (1997) 的说法:分析报告给你后见之明 (hindsight);统计分析给你先机 (foresight);数据挖掘给你洞察力 (insight)。 
  

  这话说得太强,我不是那么地相信。因为这三者都是在既有的数据上做分析,在概念上应该并无本质区别,差别只是手上的数据集的大小和性质,因此,由方法的不同才有定义的不同。 
  

  较负面的理解来自Friedman (1997),他说:“Data mining is a commercial enterprise that seeks to mine the miners。(数据挖掘就是商业企业竭力去寻找挖掘者的过程。)”这句话有多少真实的成分,我并不清楚,但是酸味还是有一点的。在雅虎上键入“Data Mining”,立刻便找到一百五十多个网址。如果用Google 搜寻,它在0.34秒内就找到1,260,000项查询结果。这是在方法论都还没有成熟之前便已有大量商品充斥的情形。看起来真是商机无限。在另一方面,我却在文献上读到:“…… while I appreciate the importance of data mining, in practice the profit it brings has turned out to be surprisingly limited in many key businesses.(虽然我认可数据挖掘重要性,事实上,在很多关键的业务中,它所带来的利润已证明出奇有限。” (Kann 2000) 
  

  多半的数据库在建造时都另有目的,并不是设计来给大家挖掘的。上帝给我们大海,也许只是想给我们盐。现在盐的利润有限,大家就拼命去提炼铀,结果自然就不会十分理想。 
  

  我认为,比较中肯的是 Hand et al. (2000) 的说法:“Data mining is the process of seeking interesting or valuable information in large data bases.(数据挖掘是一种在大型数据库中寻找你感兴趣或是有价值信息的过程。)” 
  

  
挖掘需要“用心看” 
  

  Demming (1943) 曾说过:“搜集数据的目的是为了行动。”这是在数据的搜集并不便宜的时候所说的话。现在要反过来看:已经有了一大堆数据,当初只是为了搜集而搜集──因为反正不贵,而且说不定某一天会有用─现在我们应该问,这些数据可以提供怎样的信息,能让数据的所有者采取何种有效的行动?我的意思是我们需要用心地去看这些数据。“用心看”有两个角度:整体和局部。 
  

  从整体看: 模型 
  

  从整体的角度来看一个数据集,是靠统计学里面的抽样方法就可以发挥得不错的。抽样的要点是细化──用一组较小的、容易处理的精选的数据来反映整体。在这里我们可以做一大堆传统的建模工作,但这里面最主要的观念是抽样。 
  

  例如 SAS 的Enterprise Miner软件中所构建出来的“表格”,就是全部数据的抽样所得。从抽样的观点来看,数据量再多也不是问题──它反而可使抽样理论更加简单。在数据库上抽样,成本低,且没有我们最头痛的non-response(无反应)问题。这一部分,可以说是所有我们想做的理论和方法都十分成熟, 只要找一群还不错的人,将这些已知的事物组合包装就好。在表格上做传统分析,最后的结果当然是一个可以用来描绘所有数据之间的关系的模型。 
  

  从局部看: 模式发现 
  

  从局部的角度来看数据挖掘,到目前为止,主要的目的是模式发现。这和我们常听到的模式识别颇有不同。用雷达找飞机的工作,算是后者──我们知道飞机是我们要找的对象。但是在数据挖掘中,我们在通常情况下并不知道我们要找的东西是什么。在技术上,这也不能通过抽样的方法来做。模式是数据的局部结构,在这一部分,数据挖掘强调的方法是算法。数据一多,光凭人力是不能完全解决问题的,我们只有靠明确的指令让计算机一个一个帮我们找。那么在这里,我们就完全用不上统计方法吗?也不尽然。在提取训练样本(training sample)的时候,我们是可以把实验设计的想法放进去的。 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值