数据挖掘笔记(一)

Hadoop为我们提供了一个可靠的共享存储和分析系统。HDFS实现数据的存储,Mapreduce实现数据的分析和处理,这两个是hadoop的核心价值。

 

关于离群点数据:相差远,与平常不同,偷税漏税。(银行卡盗用)

 

机器学习:获取技能,模拟人类学习行为(如医学诊断等)

模式识别:计算机代替人进行识别。(图像、声音)

 

信息爆炸时代,信息冗余、信息真假难辨识、安全难以保证,信息形式不一。

 

数据挖掘思想来自于:机器学习、模式识别、统计、数据库系统。

数据挖掘的定义:

(1)         技术层面上:数据挖掘是从大量数据中提取潜在有用的信息过程。(潜在:以前所不了解的)

(2)         从商业层面:对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据。

 

数据挖掘对象:

(关系数据库、数据仓库)、事务数据库、空间数据库、流数据、多媒体数据库、文本数据库、万维网数据。

 

流数据:暂时保存,如流媒体,看完后丢包,无任何保存。

 

数据挖掘的任务:预测性任务和描述性任务。

预测任务(找出其他属性的预测特定属性的值):回归、分类、离群点检测;

描述性任务(寻找数据中潜在联系的模式):聚类分析、关联分析、演化分析、序列模式挖掘。

 

数据挖掘:分类、聚类、关联

(1)         关联:啤酒和尿布的故事。(推出关联规则)

(2)         聚类:广告精准投放、智能搜索(物以类聚,人以群分)

(3)         分类:客户流失 、入侵检测——预测模型

……..

 

数据挖掘仅仅是一个工具,挖掘得到的模型可以告诉你如何,但是不会说明为什么。

阅读更多
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_36411874/article/details/57925304
个人分类: hadoop
上一篇125. Valid Palindrome 的OJ代码
下一篇Java遍历Set集合方法
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭