数据挖掘笔记(一)

Hadoop为我们提供了一个可靠的共享存储和分析系统。HDFS实现数据的存储,Mapreduce实现数据的分析和处理,这两个是hadoop的核心价值。

 

关于离群点数据:相差远,与平常不同,偷税漏税。(银行卡盗用)

 

机器学习:获取技能,模拟人类学习行为(如医学诊断等)

模式识别:计算机代替人进行识别。(图像、声音)

 

信息爆炸时代,信息冗余、信息真假难辨识、安全难以保证,信息形式不一。

 

数据挖掘思想来自于:机器学习、模式识别、统计、数据库系统。

数据挖掘的定义:

(1)         技术层面上:数据挖掘是从大量数据中提取潜在有用的信息过程。(潜在:以前所不了解的)

(2)         从商业层面:对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据。

 

数据挖掘对象:

(关系数据库、数据仓库)、事务数据库、空间数据库、流数据、多媒体数据库、文本数据库、万维网数据。

 

流数据:暂时保存,如流媒体,看完后丢包,无任何保存。

 

数据挖掘的任务:预测性任务和描述性任务。

预测任务(找出其他属性的预测特定属性的值):回归、分类、离群点检测;

描述性任务(寻找数据中潜在联系的模式):聚类分析、关联分析、演化分析、序列模式挖掘。

 

数据挖掘:分类、聚类、关联

(1)         关联:啤酒和尿布的故事。(推出关联规则)

(2)         聚类:广告精准投放、智能搜索(物以类聚,人以群分)

(3)         分类:客户流失 、入侵检测——预测模型

……..

 

数据挖掘仅仅是一个工具,挖掘得到的模型可以告诉你如何,但是不会说明为什么。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值