数据挖掘导论1

最新推荐文章于 2023-07-11 15:23:07 发布

人间的分贝

最新推荐文章于 2023-07-11 15:23:07 发布

阅读量211

点赞数

本文链接：https://blog.csdn.net/qq_44370441/article/details/111473078

版权

数据挖掘导论1

1.概述

1.1数据挖掘的功能

特征化和区分

数据特征化：经常购买某类商品的用户特征
数据区分：干燥和潮湿地区的特征比较

频繁模式和关联（相关和因果关系）
用于预测的分类和回归
聚类分析（对数据分组形成新的类）
离群点分析
趋势和演变分析

1.2 数据挖掘的主要问题

挖掘方法和用户交互
有效性和可伸缩性
数据类型的多样性
数据安全，隐私的保护

2.数据预处理

2.1认识数据

数据对象，即所代表的实体
属性：描述对象的特征

属性类型

标称属性：类别，名称，如头发颜色
二元属性：只有两个状态的标称属性
序数属性：排名，年级
数值属性：可度量和计算

数据的基本统计描述

度量数据的中心趋势
1.平均值
2.中位数
3.众数

数据倾斜

在这里插入图片描述

度量数据离散度

极差：最大值与最小值之差
百分位数：第k个百分位数
四分位数：Q1（百分位25）,Q3（百分位75）
中间四分位数极差（IQR）：Q3-Q1
孤立点：至少高于Q3或低于Q1的1.5*IQR值
方差和标准差

箱型图

在这里插入图片描述

2.2数据预处理

数据清理的功能

填写缺失的值
识别离群点和平滑噪声数据
纠正不一致的数据
解决数据集成造成的冗余

例子：用分箱光滑噪声数据
数据清理的过程

1 偏差检测
2 数据变换（纠正偏差）
3 数据变换和偏差检测的迭代执行

数据集成：将多个数据源中的数据整合到一个一致的存储当中
处理数据集成中的冗杂数据
数据规约，常用的为数据压缩，直方图，回归模型，抽样
数据变换

离散化：区间的标号代替实际的数据值
概念分层：用高层概念（青年，中年，老年）代替底层的属性值（实际的年龄数据）

在这里插入图片描述

##　３.数据仓库

3.1数据仓库

数据仓库有很多定义，但却很难有一种严格的定义
区别于其他数据存储系统
数据仓库是一个面向主题，集成的，随时间变化的，不统一丢失的数据集合，支持管理部门的决策过程
数据仓库是一个数据库

数据仓库关键特征一：面向主题
数据仓库关键特征二：数据集成（通过多个异种数据源构造）
	集成方法：查询驱动（对于频繁的查询开销很大），更新驱动（高性能）
数据仓库关键特征三：历史信息
	其时间范围比操作数据库系统长很多
数据仓库关键特征四：数据不易丢失

操作数据库系统的主要任务是联机事务处理OLTP----面向顾客，且为当前详细的数据
数据仓库的主要任务是联机分析处理OLAP----面向市场，且为历史汇总的数据
OLAP只读，访问数据量大

3.2多维数据模型

数据仓库和OLAP工具基于多维数据模型
数据以数据立方体的形式存在

在这里插入图片描述

多维数据模型上的OLAP操作

上卷：汇总数据
下卷：上卷的逆操作
切片和切块：通过对维度进行选择定义子立方体
转轴：可视化操作，可以理解为对立方体进行转动

在这里插入图片描述

3.3数据仓库的设计与使用

设计过程

在这里插入图片描述

应用

在这里插入图片描述

4.关联规则挖掘

4.1关联规则

用于从大量数据中挖掘出有价值的数据项之间的关系，在电子商务，推荐系统得到广泛应用

在这里插入图片描述

关联规则的度量

在这里插入图片描述

频繁项集

在这里插入图片描述

关联规则挖掘的两步过程

1  找出所有频繁项集
2  由频繁项集产生强关联规则

4.2频繁项集挖掘

Apriori算法

Apriori算法由连接和剪枝两个步骤组成

在这里插入图片描述

Apriori算法实例

在这里插入图片描述

4.3规则评估方法

客观度量：支持度，置信度
主观度量：强关联规则是否是有趣的

在这里插入图片描述

人间的分贝

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘导论1

数据挖掘导论11.概述1.1数据挖掘的功能特征化和区分数据特征化：经常购买某类商品的用户特征数据区分：干燥和潮湿地区的特征比较频繁模式和关联（相关和因果关系）用于预测的分类和回归聚类分析（对数据分组形成新的类）离群点分析趋势和演变分析1.2 数据挖掘的主要问题挖掘方法和用户交互有效性和可伸缩性数据类型的多样性数据安全，隐私的保护2.数据预处理2.1认识数据数据对象，即所代表的实体属性：描述对象的特征属性类型标称属性：类别
复制链接

扫一扫