Hadoop为我们提供了一个可靠的共享存储和分析系统。HDFS实现数据的存储,Mapreduce实现数据的分析和处理,这两个是hadoop的核心价值。
关于离群点数据:相差远,与平常不同,偷税漏税。(银行卡盗用)
机器学习:获取技能,模拟人类学习行为(如医学诊断等)
模式识别:计算机代替人进行识别。(图像、声音)
信息爆炸时代,信息冗余、信息真假难辨识、安全难以保证,信息形式不一。
数据挖掘思想来自于:机器学习、模式识别、统计、数据库系统。
数据挖掘的定义:
(1) 技术层面上:数据挖掘是从大量数据中提取潜在有用的信息过程。(潜在:以前所不了解的)
(2) 从商业层面:对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据。
数据挖掘对象:
(关系数据库、数据仓库)、事务数据库、空间数据库、流数据、多媒体数据库、文本数据库、万维网数据。
流数据:暂时保存,如流媒体,看完后丢包,无任何保存。
数据挖掘的任务:预测性任务和描述性任务。
预测任务(找出其他属性的预测特定属性的值):回归、分类、离群点检测;
描述性任务(寻找数据中潜在联系的模式):聚类分析、关联分析、演化分析、序列模式挖掘。
数据挖掘:分类、聚类、关联
(1) 关联:啤酒和尿布的故事。(推出关联规则)
(2) 聚类:广告精准投放、智能搜索(物以类聚,人以群分)
(3) 分类:客户流失 、入侵检测——预测模型
……..
数据挖掘仅仅是一个工具,挖掘得到的模型可以告诉你如何,但是不会说明为什么。