一、背景
数据挖掘,差不多好些年了吧,各种各样的挖掘算法都有了。
但是对于数据挖掘这个词语,我们最容易想起的故事应该是啤酒尿不湿,据说某年沃尔玛的数据挖掘大神们对超市的售货情况做了一次挖掘,发现有一批人喜欢买啤酒和尿不湿,真是很奇怪的又有趣的事情,后来沃尔玛真的就把啤酒和尿不湿放在相邻的商品架上,结果销量大增了。后来这些大神们对这一现象的解释是早上妻子嘱咐老公下班回家买尿不湿,然后男的进超市后,就想反正都来了喝瓶啤酒吧。当然这是国外的故事。
这个故事反应的问题似乎是数据挖掘就是做关联规则挖掘的,后来学习了一点数据挖掘之后,发现还能做分类聚类。但是我的理解不要局限于这些。
举一个例子,据说某年的某个数学大神建立了一个经济学的模型,能够预测大概什么时候会发生金融危机,然后国家正对他的预测做了很多防御措施,让那次金融危机少损失了5000万左右。那位数学大神好像也因为此时得到院士级的荣誉。这个算不算是数据挖掘呢?显然这个是的。因为这是对历史数据的一种挖掘。
所以,我对数据挖掘的定义:对于给定的数据,挖掘出对我们有用的信息。这里为什么要说“有用”两个字呢?难道挖掘出一些没有用的信息就不叫数据挖掘了?不是的,只是挖掘那些没有用的信息是挖掘有用信息的一些“前导”步骤,我们的最终目的还是要挖掘出有用的信息才行。
接下来进入正题,至于一些统计中的基础知识,这里就不介绍啦,自己翻一下数理统计之类的书吧。
二、基本概念【未完,待补充】
概念1,项
概念2,项集
概念3,闭项集
概念4,极大闭项集