数据挖掘（一）引论

最新推荐文章于 2023-04-24 11:09:23 发布

业余敲代码

最新推荐文章于 2023-04-24 11:09:23 发布

阅读量299

点赞数 1

分类专栏：数据挖掘文章标签：数据挖掘机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39676449/article/details/84329409

版权

数据挖掘专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一.为什么要进行数据挖掘：

1.迈向信息时代：

信息时代 = 数据时代

数据挖掘（KDD）把大型数据集转换成知识

2.数据挖掘是信息技术的进化：

（1）数据仓库：这是一种多个异构数据源在单个站点以统一的模式组织的存储，以支持管理决策，一种数据存储结构，用于长期存储数据的仓库

（2）数据仓库技术：包括数据清理、数据集成和联机分析处理（OLAP）

（3）OLAP联机分析处理：一种分析技术，具有汇总、合并和聚集以及从不同角度观察信息的能力

二.什么是数据挖掘：

1.数据中的知识发现（KDD）

2.知识发现过程（前四步是数据预处理的不同形式，为数据挖掘准备）：

（1）数据清理（消除噪声和删除不一致数据）

（2）数据集成（多种数据源可以组合在一起）

（3）数据选择（从数据库中提取与分析任务相关的数据）

（4）数据变换（通过汇总或聚集操作，把数据变换和统一成适合挖掘的形式）

（5）数据挖掘（基本步骤，使用智能方法提取数据模式）

（6）模式评估（根据某种兴趣度度量，识别代表知识的真正有趣的模式）

（7）知识表示（使用可视化技术和知识表示技术，向用户提供挖掘的知识）

3.广义的数据挖掘：

从大量数据中挖掘有趣模式和知识的过程，数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据

三.可以挖掘哪些类型数据：

1.数据库数据：关系数据库最常见

2.数据仓库：

是一个从多个数据源收集的信息存储库，存放在一致的模式下，并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。

数据仓库又称做数据立方体的多维数据结构建模，数据立方体提供数据的多维视图，并允许预计算和快速访问汇总数据；

通过提供多维数据视图和汇总数据的预计算，数据仓库非常适合联机分析处理（下钻和上卷）

多维数据挖掘，又称探索式多维数据挖掘：把数据挖掘的核心技术与基于OLAP的多维分析结合在一起，在不要的抽象层的多维组合中搜索有趣的模式，从而探索多维数据空间

3.事务数据：事务数据库的每个记录代表一个事务

4.其它类型的数据：多种数据类型

四.可以挖掘的类型的数据模式：

数据挖掘功能用于指定数据挖掘任务发现的模式，这些任务分为描述性和预测性。

描述性挖掘任务：刻画目标数据中数据的一般性质

预测性挖掘任务：在当前数据上进行归纳，以便做出预测

1.类/概念描述：特征化与区分

类/概念描述可以通过以下方法得到：

（1）数据特征化：目标类数据的一般特性或特征的汇总

（2）数据区分：将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较

（3）数据特征化和区分

2.挖掘频繁模式、关联和相关性：

频繁模式包括：

（1）频繁项集：指频繁地在事务数据集中一起出现额商品的集合，如频繁一起购买的牛奶和面包

（2）频繁子序列：比如顾客倾向于先购买一样再购买另外一样

（3）频繁子结构：可能涉及不同的结构形式，可以与项集或子序列结合在一起。一个子结构频繁出现，称其为结构模式

关联分析：单维关联规则多维关联规则

3.用于预测分析的分类与回归：

（1）分类：找出描述和区分数据类或概念的模型，以便能够使用模型预测类标号未知的对象的类标号

导出模型的多种形式：分类规则、决策树、数学公式或神经网络

（2）回归：建立连续值函数模型，用来预测缺失的或难以获得的数值数据值

（3）相关分析：可能需要在分类和回归之前进行，它试图识别与分类和回归过程中显著相关的属性，我们将这些属性用于分类和回归过程

4.聚类分析：

聚类分析数据对象，不考虑类标号

原则：最大化类内相似性、最小化类间相似性

5.离散点分析：

离群点数据分析

6.模式是否有趣：

支持度、置信度

五.需要使用的技术：

1.统计学

2.机器学习：

监督学习（分类）、无监督学习（聚类）、半监督学习、主动学习

3.数据库系统与数据仓库

4.信息检索

六.面向的类型的应用：

两个流行应用：商务智能和 Web搜索引擎

七.数据挖掘的主要问题：

1.挖掘方法

2.用户交互

3.有效性和可伸缩性

4.数据库类型的多样性

5.数据挖掘与社会

业余敲代码

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘（一）引论

一.为什么要进行数据挖掘：1.迈向信息时代：信息时代 = 数据时代数据挖掘把大型数据集转换成知识2.数据挖掘是信息技术的进化：（1）数据仓库：这是一种多个异构数据源在单个站点以统一的模式组织的存储，以支持管理决策，一种数据存储结构，用于长期存储数据的仓库（2）数据仓库技术：包括数据清理、数据集成和联机分析处理（OLAP）（3）OLAP联机分析处理：一种分析技术，具有汇总、合并和聚集...
复制链接

扫一扫

专栏目录

业余敲代码 CSDN认证博客专家 CSDN认证企业博客

码龄7年

137: 原创

6万+: 周排名

4万+: 总排名

17万+: 访问

: 等级

2625: 积分

424: 粉丝

550: 获赞

52: 评论

838: 收藏

私信

关注

热门文章

分类专栏

开发工具 6篇
jeecg 2篇
java 8篇
自动驾驶 6篇
导航地图 9篇
GIS 7篇
docker 2篇
grafana 1篇
postgressql 4篇
shape 3篇
数据库 9篇
英语学习 1篇
计算机视觉 1篇
c++ 3篇
java面试 10篇
java并发 1篇
leetcode（java实现） 2篇
计算机工具 2篇
数据挖掘 3篇
前端开发 76篇
后端node 2篇
数据结构 34篇
Web安全 1篇
APP开发
leetcode 31篇
后端java开发 18篇

最新评论

OpenStreetMap开放街道地图(OSM)介绍
等待958: OSM能下载省级地图吗
Navigation Data Standard Format Specification NDS 2.5.4（中文版）
m0_73575543: 这个有出版的书吗
C++知识二（基础语法篇）
Kwan的解忧杂货铺@新空间代码工作室: 支持博主优质文章，讲解得非常详细，干货满满，通俗易懂，期待博主下次更新
C++知识一（基础介绍篇）
送涂图: TCP协议在传输实时语音流方面的优点： 1. 可靠性高：TCP协议通过确认机制和重传机制保证数据的可靠性，能够保证语音数据的完整性和准确性。 2. 顺序性好：TCP协议能够保证数据的顺序性，能够确保语音数据按照发送顺序被接收。 3. 流量控制：TCP协议能够通过流量控制机制，控制数据的发送速率，避免网络拥塞，保证语音数据的传输质量。 TCP协议在传输实时语音流方面的缺点： 1. 延迟较高：TCP协议需要进行确认和重传，会增加数据传输的延迟，对于实时语音流来说，延迟较高会影响语音的实时性。 2. 传输效率低：TCP协议需要进行确认和重传，会增加数据传输的开销，降低传输效率。 3. 不适合大规模并发：TCP协议需要维护连接状态，对于大规模并发的实时语音流传输来说，会增加服务器的负担，降低系统的性能。
Arcgis api 4.x集成 Echarts实现二三维点状图和迁徙图
DXnima: 大佬时隔三年 3d柱状图解决了吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。