数据挖掘复习提纲_2021.6.14
引论
数据库和数据管理: 数据收集、数据库创建、数据管理(储存、检索、数据库事务处理)和高级数据分析(数据仓库和数据挖掘)
数据仓库: 一个多异构数据源在一个单一站点以统一模式组织的储存,以支持管理决策
数据仓库技术包括: 数据清理、数据集成、联机分析处理(OLAP)
数据挖掘: 从海量数据发现有趣模式的过程,包括
- 数据清理(清除噪声和不一致数据)
- 数据集成(多种数据源组合在一起)
- 数据选择(从数据库中提取与分析问题有关的数据)
- 数据变换(通过汇总操作,把数据变换和统一成可挖掘的模式)
- 模式发现(数据挖掘)(基本操作,利用智能方法提取数据模式)
- 模式评估(根据某种兴趣度度量,识别代表知识的真正有趣模式)
- 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
数据源: 数据库、数据仓库、web、其他流动数据
进行数据挖掘的数据类型: 可以是任何类型的数据,但最基本的是数据库数据、数据仓库数据、事务数据
数据挖掘的功能: 数据挖掘功能用来指定数据挖掘任务发现的模式或知识的类型
- 特征化与区分
- 频繁模式、关联和相关性挖掘
- 分类与回归
- 聚类分析
- 离群点分析
一般而言数据挖掘任务分为两类 描述性挖掘任务和预测性挖掘任务
类/概念:特征化与区分
数据与类或概念相关联
用汇总的、精确的、简洁的表达方式描述每个概念和类
- 数据特征化
- 数据区分
- 数据特征化与数据区分
数据特征化的方法与结果
- 概念: 目标类数据的一般特性或一般特性的汇总,一般通过查询来收集特定数据
- 具体方法 1、统计度量和图 2、数据立方体OLAP 3、面向属性的归纳技术
- 结果形式 1、统计图和表 2、多维数据立方体 3、广义关系或规则(特征规则)
数据区分
- 概念 将目标类的一般特性与一个或多个对比类的一般特性进行比较
目标类和对比类可以由用户指定,而对应的类数据可以由数据库进行查询 - 具体方法 类似特征化
- 结果输出类似特征描述,但区分描述应包括比较度量,以便于帮助区别目标类和对比类
- 区分规则 用规则表示的区分描述
数据特征
数据对象、数据类型、数据集
数据类型
标称 | 序数 | 数值 | |
---|---|---|---|
运算 | 比较 | 比较,排序 | 比较、排序、加减、乘除(比率标度) |
中心趋势 | 众数 | 众数、中位数 | 众数、中位数、均数 |
基本统计描述
数值方法
- 集中趋势
-
- 均值、中位数、众数、中列数
- 散步度量(离散程度)
-
- 极差、四分数、方差、标准差、四分位极差、五数概括
-
- 离群值:落在1.5倍数IQR外的值
图形
-
- 条图、饼图、线图
分布检查
-
- 盒图
-
- 分位图
-
- 直方图
-
- 散点图
-
- PP图
-
- QQ图(理论为横轴)
qqnorm(x)
qqline(x,lwd=2,col=2) #lwd is line width;col is color
##PP_plot
set.seed(1)
N = 10
x = rnorm(n = N,mean = 0,sd = 1) #抽样,理论分位点
x = sort(x) #排序,实际分位点
n.props = pnorm(x,mean(x),sd(x)) #计算理论累积概率
props = 1:N/(N+1) #计算实际累积概率函数
n.quntiles = qnorm(props,mean=mean(x),sd=sd(x)) #计算理论分位点
my.data = data.frame(x = x,props = props,
normal.proportions=n.props,
normal.quantiles =n.quantiles)
round(mydata,digits = 3)
par(mfrow=c(1,2)) #绘图参数
plot(props,n.props,main = "PP_plot") #正态累积百分数对经验百分数的图
m2 <- lm(props ~ n.props)
abline(m2)
plot(n.quantiles,x,main="QQ_plot") #正态分位点对经验分位点图
m1 <- lm(n.quantiles ~ x)
abline(m1)
数据可视化显示
基于像素的可视化
- 每个维创建一个窗口,像素颜色反映对应的值,窗口内所有数据按照某种全局序排序
空间填充曲线
- 覆盖n维超立方体,窗口不必是矩形的(圆弓分格技术)
星型图(分段图)
palette(rainbow()12,s=0.6,v=0.75)
stars(mtcars[1:10,1:17],draw.segments=TRUE,mar = c(1,1,1,1),ncol = 4,
key.loc = c(9,2),main = "Motor Trend Star")
几何投影可视化技术
- 散点图
- 散点矩阵图
prirs(iris)
蜘蛛图
star(mtcars[1:10,1:7],locations = c(0,0),radius = T,
key.loc = c(0.0),main = "Spider",ity = 1,col.lines = 1:7)
星座图
install.packages('fmsb')
library(fmsb)
radarchart(data)
折线图
install.packages('MASS')
library(MASS)
parcoord(iris[,c(1,3,4,2)],col = iris$Species)
三维散点图
install.packages('scatterplot3d')
library(scatter)
scatter(iris[,1:3],highlight.3d = F)
基于图符的可视化技术
- 脸图
install.packages('TeachingDemos')
library(TeachingDemos)
faces(data)
层次可视化技术
- 树图
- 聚类图
可视化复杂对象与关系
- 标签云
install.packages('wordcloud2')
library(wordcloud2)
wordcloud2(data=demoFreq,size = 1.6)
数据预处理
-
- 定义: 现实世界的数据一般是脏的,不完整和不一致的,数据处理技术可以改进数据的质量,从而有助于提高其后挖掘的准确率和效率
-
- 数据质量的三个要素:准确性、完整性、一致性
数据清理(噪声、纠正不一致)
填补缺失值、平滑噪声数据、识别或删除离群点、解决不一致数据
1.== 缺失值处理==
- 1)、忽略元组 缺少类标号,删除会损失信息,删除多时影响大
- 2)、填补缺失值 人工(不可行)、全局常量、中心度量、可能的缺失值
- 噪声数据
- 数据平滑
-
- 分箱 局部光滑,考察数据的临近来光滑数据
分箱平滑 分箱,用平滑值代替箱内具体数值
等宽分箱 不能很好处理偏态数据
等深分箱(等频率、按分位数分箱) 优点
- 分箱 局部光滑,考察数据的临近来光滑数据
- 回归 拟合
- 聚类 识别或离群点分析
- 人机结合
1、忽略元组 2、填补缺失值
数据集成(多个数据源合并为一个处理)
数据归约(降低数据规模)
数据变换(把数据压缩到较小区间)
概念描述
数据泛化
把相对较低层的概念用相对较高层的概念替换来汇总数据;或者减少位数,在较少维的空间汇总数据。