数据挖掘笔记（一）

最新推荐文章于 2024-01-09 16:03:07 发布

渴望飞的鱼

最新推荐文章于 2024-01-09 16:03:07 发布

阅读量386

点赞数 1

分类专栏： hadoop 文章标签：数据数据挖掘大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36411874/article/details/57925304

版权

hadoop 专栏收录该内容

10 篇文章 2 订阅

订阅专栏

Hadoop为我们提供了一个可靠的共享存储和分析系统。HDFS实现数据的存储，Mapreduce实现数据的分析和处理，这两个是hadoop的核心价值。

关于离群点数据：相差远，与平常不同，偷税漏税。（银行卡盗用）

机器学习：获取技能，模拟人类学习行为（如医学诊断等）

模式识别：计算机代替人进行识别。（图像、声音）

信息爆炸时代，信息冗余、信息真假难辨识、安全难以保证，信息形式不一。

数据挖掘思想来自于：机器学习、模式识别、统计、数据库系统。

数据挖掘的定义：

（1）技术层面上：数据挖掘是从大量数据中提取潜在有用的信息过程。（潜在：以前所不了解的）

（2）从商业层面:对大量业务数据进行抽取、转换、分析和建模处理，从中提取辅助商业决策的关键性数据。

数据挖掘对象：

（关系数据库、数据仓库）、事务数据库、空间数据库、流数据、多媒体数据库、文本数据库、万维网数据。

流数据：暂时保存，如流媒体，看完后丢包，无任何保存。

数据挖掘的任务：预测性任务和描述性任务。

预测任务（找出其他属性的预测特定属性的值）：回归、分类、离群点检测；

描述性任务（寻找数据中潜在联系的模式）：聚类分析、关联分析、演化分析、序列模式挖掘。

数据挖掘：分类、聚类、关联

（1）关联：啤酒和尿布的故事。（推出关联规则）

（2）聚类：广告精准投放、智能搜索（物以类聚，人以群分）

（3）分类：客户流失、入侵检测——预测模型

……..

数据挖掘仅仅是一个工具，挖掘得到的模型可以告诉你如何，但是不会说明为什么。

渴望飞的鱼

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘笔记（一）

数据挖掘笔记
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。