数据挖掘复习整理

≯不见猫

已于 2022-05-15 09:33:09 修改

阅读量700

点赞数 2

文章标签：数据挖掘

于 2021-06-14 17:00:55 首次发布

本文链接：https://blog.csdn.net/qq_44889450/article/details/117700697

版权

数据挖掘复习提纲_2021.6.14

引论
数据特征
数据预处理
概念描述
- 数据泛化
分类与预测（决策树和规则）
- 分类
- 预测
聚类分析（kmeans和层次聚类为主）
- kmeans
- 层次聚类
度量数据的相似性和相异性
- 相似性
- 相异性
挖掘频繁模式以及关联和相关

引论

数据库和数据管理： 数据收集、数据库创建、数据管理（储存、检索、数据库事务处理）和高级数据分析（数据仓库和数据挖掘）
数据仓库: 一个多异构数据源在一个单一站点以统一模式组织的储存，以支持管理决策
数据仓库技术包括: 数据清理、数据集成、联机分析处理（OLAP）
数据挖掘: 从海量数据发现有趣模式的过程，包括

数据清理（清除噪声和不一致数据）
数据集成（多种数据源组合在一起）
数据选择（从数据库中提取与分析问题有关的数据）
数据变换（通过汇总操作，把数据变换和统一成可挖掘的模式）
模式发现（数据挖掘）（基本操作，利用智能方法提取数据模式）
模式评估（根据某种兴趣度度量，识别代表知识的真正有趣模式）
知识表示（使用可视化和知识表示技术，向用户提供挖掘的知识）

数据源： 数据库、数据仓库、web、其他流动数据
进行数据挖掘的数据类型: 可以是任何类型的数据，但最基本的是数据库数据、数据仓库数据、事务数据
数据挖掘的功能: 数据挖掘功能用来指定数据挖掘任务发现的模式或知识的类型

特征化与区分
频繁模式、关联和相关性挖掘
分类与回归
聚类分析
离群点分析
一般而言数据挖掘任务分为两类描述性挖掘任务和预测性挖掘任务

类/概念：特征化与区分

数据与类或概念相关联

用汇总的、精确的、简洁的表达方式描述每个概念和类

数据特征化
数据区分
数据特征化与数据区分

数据特征化的方法与结果

概念：目标类数据的一般特性或一般特性的汇总，一般通过查询来收集特定数据
具体方法 1、统计度量和图 2、数据立方体OLAP 3、面向属性的归纳技术
结果形式 1、统计图和表 2、多维数据立方体 3、广义关系或规则（特征规则）

数据区分

概念将目标类的一般特性与一个或多个对比类的一般特性进行比较
目标类和对比类可以由用户指定，而对应的类数据可以由数据库进行查询
具体方法类似特征化
结果输出类似特征描述，但区分描述应包括比较度量，以便于帮助区别目标类和对比类
区分规则用规则表示的区分描述

数据特征

数据对象、数据类型、数据集

数据类型

	标称	序数	数值
运算	比较	比较，排序	比较、排序、加减、乘除（比率标度）
中心趋势	众数	众数、中位数	众数、中位数、均数

基本统计描述

数值方法

集中趋势
- 均值、中位数、众数、中列数
散步度量（离散程度）
- 极差、四分数、方差、标准差、四分位极差、五数概括
- 离群值：落在1.5倍数IQR外的值

图形

- 条图、饼图、线图

分布检查

- 盒图
- 分位图
- 直方图
- 散点图
- PP图
- QQ图（理论为横轴）

qqnorm(x)
qqline(x,lwd=2,col=2) #lwd is line width;col is color

##PP_plot
set.seed(1)
N = 10
x = rnorm(n = N,mean = 0,sd = 1)  #抽样，理论分位点
x = sort(x)  #排序，实际分位点
n.props = pnorm(x,mean(x),sd(x)) #计算理论累积概率
props = 1:N/(N+1)  #计算实际累积概率函数
n.quntiles = qnorm(props,mean=mean(x),sd=sd(x)) #计算理论分位点
my.data = data.frame(x = x,props = props,
	normal.proportions=n.props,
	normal.quantiles =n.quantiles)
round(mydata,digits = 3)
par(mfrow=c(1,2))  #绘图参数
plot(props,n.props,main = "PP_plot") #正态累积百分数对经验百分数的图
m2 <- lm(props ~ n.props)
abline(m2)
plot(n.quantiles,x,main="QQ_plot")  #正态分位点对经验分位点图
m1 <- lm(n.quantiles ~ x)
abline(m1)

数据可视化显示

基于像素的可视化

每个维创建一个窗口，像素颜色反映对应的值，窗口内所有数据按照某种全局序排序

空间填充曲线

覆盖n维超立方体，窗口不必是矩形的（圆弓分格技术）

星型图（分段图）

palette(rainbow()12,s=0.6,v=0.75)
stars(mtcars[1:10,1:17],draw.segments=TRUE,mar = c(1,1,1,1),ncol = 4,
		key.loc = c(9,2),main = "Motor Trend Star")

几何投影可视化技术

散点图
散点矩阵图

prirs(iris)

蜘蛛图

star(mtcars[1:10,1:7],locations = c(0,0),radius = T,
		key.loc = c(0.0),main = "Spider",ity = 1,col.lines = 1:7)

星座图

install.packages('fmsb')
library(fmsb)
radarchart(data)

折线图

install.packages('MASS')
library(MASS)
parcoord(iris[,c(1,3,4,2)],col = iris$Species)

三维散点图

install.packages('scatterplot3d')
library(scatter)
scatter(iris[,1:3],highlight.3d = F)

基于图符的可视化技术

脸图

install.packages('TeachingDemos')
library(TeachingDemos)
faces(data)

层次可视化技术

树图
聚类图

可视化复杂对象与关系

标签云

install.packages('wordcloud2')
library(wordcloud2)
wordcloud2(data=demoFreq,size = 1.6)

数据预处理

- 定义：现实世界的数据一般是脏的，不完整和不一致的，数据处理技术可以改进数据的质量，从而有助于提高其后挖掘的准确率和效率
- 数据质量的三个要素：准确性、完整性、一致性

数据清理(噪声、纠正不一致)

填补缺失值、平滑噪声数据、识别或删除离群点、解决不一致数据

1.== 缺失值处理==

1）、忽略元组缺少类标号，删除会损失信息，删除多时影响大
2）、填补缺失值人工（不可行）、全局常量、中心度量、可能的缺失值

噪声数据

数据平滑
- 分箱局部光滑，考察数据的临近来光滑数据
  分箱平滑分箱，用平滑值代替箱内具体数值
  等宽分箱不能很好处理偏态数据
  等深分箱（等频率、按分位数分箱）优点
回归拟合
聚类识别或离群点分析
人机结合

1、忽略元组 2、填补缺失值

数据集成（多个数据源合并为一个处理）

数据归约（降低数据规模）

数据变换（把数据压缩到较小区间）

概念描述

数据泛化

把相对较低层的概念用相对较高层的概念替换来汇总数据；或者减少位数，在较少维的空间汇总数据。