数据挖掘复习整理

引论

数据库和数据管理: 数据收集、数据库创建、数据管理(储存、检索、数据库事务处理)和高级数据分析(数据仓库和数据挖掘)
数据仓库: 一个多异构数据源在一个单一站点以统一模式组织的储存,以支持管理决策
数据仓库技术包括: 数据清理、数据集成、联机分析处理(OLAP)
数据挖掘: 从海量数据发现有趣模式的过程,包括

  • 数据清理(清除噪声和不一致数据)
  • 数据集成(多种数据源组合在一起)
  • 数据选择(从数据库中提取与分析问题有关的数据)
  • 数据变换(通过汇总操作,把数据变换和统一成可挖掘的模式)
  • 模式发现(数据挖掘)(基本操作,利用智能方法提取数据模式)
  • 模式评估(根据某种兴趣度度量,识别代表知识的真正有趣模式)
  • 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

数据源: 数据库、数据仓库、web、其他流动数据
进行数据挖掘的数据类型: 可以是任何类型的数据,但最基本的是数据库数据、数据仓库数据、事务数据
数据挖掘的功能: 数据挖掘功能用来指定数据挖掘任务发现的模式或知识的类型

  • 特征化与区分
  • 频繁模式、关联和相关性挖掘
  • 分类与回归
  • 聚类分析
  • 离群点分析
    一般而言数据挖掘任务分为两类 描述性挖掘任务和预测性挖掘任务

类/概念:特征化与区分

数据与类或概念相关联

用汇总的、精确的、简洁的表达方式描述每个概念和类

  • 数据特征化
  • 数据区分
  • 数据特征化与数据区分
数据特征化的方法与结果
  • 概念: 目标类数据的一般特性或一般特性的汇总,一般通过查询来收集特定数据
  • 具体方法 1、统计度量和图 2、数据立方体OLAP 3、面向属性的归纳技术
  • 结果形式 1、统计图和表 2、多维数据立方体 3、广义关系或规则(特征规则)

数据区分

  • 概念 将目标类的一般特性与一个或多个对比类的一般特性进行比较
    目标类和对比类可以由用户指定,而对应的类数据可以由数据库进行查询
  • 具体方法 类似特征化
  • 结果输出类似特征描述,但区分描述应包括比较度量,以便于帮助区别目标类和对比类
  • 区分规则 用规则表示的区分描述

数据特征

数据对象、数据类型、数据集

数据类型

标称序数数值
运算比较比较,排序比较、排序、加减、乘除(比率标度)
中心趋势众数众数、中位数众数、中位数、均数

基本统计描述

数值方法

  • 集中趋势
    • 均值、中位数、众数、中列数
  • 散步度量(离散程度)
    • 极差、四分数、方差、标准差、四分位极差、五数概括
    • 离群值:落在1.5倍数IQR外的值

图形

    • 条图、饼图、线图

分布检查

    • 盒图
    • 分位图
    • 直方图
    • 散点图
    • PP图
    • QQ图(理论为横轴)
qqnorm(x)
qqline(x,lwd=2,col=2) #lwd is line width;col is color

##PP_plot
set.seed(1)
N = 10
x = rnorm(n = N,mean = 0,sd = 1)  #抽样,理论分位点
x = sort(x)  #排序,实际分位点
n.props = pnorm(x,mean(x),sd(x)) #计算理论累积概率
props = 1:N/(N+1)  #计算实际累积概率函数
n.quntiles = qnorm(props,mean=mean(x),sd=sd(x)) #计算理论分位点
my.data = data.frame(x = x,props = props,
	normal.proportions=n.props,
	normal.quantiles =n.quantiles)
round(mydata,digits = 3)
par(mfrow=c(1,2))  #绘图参数
plot(props,n.props,main = "PP_plot") #正态累积百分数对经验百分数的图
m2 <- lm(props ~ n.props)
abline(m2)
plot(n.quantiles,x,main="QQ_plot")  #正态分位点对经验分位点图
m1 <- lm(n.quantiles ~ x)
abline(m1)

数据可视化显示

基于像素的可视化

  • 每个维创建一个窗口,像素颜色反映对应的值,窗口内所有数据按照某种全局序排序

空间填充曲线

  • 覆盖n维超立方体,窗口不必是矩形的(圆弓分格技术)

星型图(分段图)

palette(rainbow()12,s=0.6,v=0.75)
stars(mtcars[1:10,1:17],draw.segments=TRUE,mar = c(1,1,1,1),ncol = 4,
		key.loc = c(9,2),main = "Motor Trend Star")

几何投影可视化技术

  • 散点图
  • 散点矩阵图
prirs(iris)

蜘蛛图

star(mtcars[1:10,1:7],locations = c(0,0),radius = T,
		key.loc = c(0.0),main = "Spider",ity = 1,col.lines = 1:7)

星座图

install.packages('fmsb')
library(fmsb)
radarchart(data)

折线图

install.packages('MASS')
library(MASS)
parcoord(iris[,c(1,3,4,2)],col = iris$Species)

三维散点图

install.packages('scatterplot3d')
library(scatter)
scatter(iris[,1:3],highlight.3d = F)

基于图符的可视化技术

  • 脸图
install.packages('TeachingDemos')
library(TeachingDemos)
faces(data)

层次可视化技术

  • 树图
  • 聚类图

可视化复杂对象与关系

  • 标签云
install.packages('wordcloud2')
library(wordcloud2)
wordcloud2(data=demoFreq,size = 1.6)

数据预处理

    • 定义: 现实世界的数据一般是脏的,不完整和不一致的,数据处理技术可以改进数据的质量,从而有助于提高其后挖掘的准确率和效率
    • 数据质量的三个要素:准确性、完整性、一致性

数据清理(噪声、纠正不一致)

填补缺失值、平滑噪声数据、识别或删除离群点、解决不一致数据

1.== 缺失值处理==

  • 1)、忽略元组 缺少类标号,删除会损失信息,删除多时影响大
  • 2)、填补缺失值 人工(不可行)、全局常量、中心度量、可能的缺失值
  1. 噪声数据
  • 数据平滑
    • 分箱 局部光滑,考察数据的临近来光滑数据
      分箱平滑 分箱,用平滑值代替箱内具体数值
      等宽分箱 不能很好处理偏态数据
      等深分箱(等频率、按分位数分箱) 优点
  • 回归 拟合
  • 聚类 识别或离群点分析
  • 人机结合

1、忽略元组 2、填补缺失值

数据集成(多个数据源合并为一个处理)

数据归约(降低数据规模)

数据变换(把数据压缩到较小区间)

概念描述

数据泛化

把相对较低层的概念用相对较高层的概念替换来汇总数据;或者减少位数,在较少维的空间汇总数据。

分类与预测(决策树和规则)

分类

预测

聚类分析(kmeans和层次聚类为主)

kmeans

层次聚类

度量数据的相似性和相异性

相似性

相异性

挖掘频繁模式以及关联和相关

挖掘频繁模式

关联

相关

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值