0 数据变换的应用场景
数据变换是数据预处理的一步,主要是为了使数据变得更容易理解或者更容易获得简单的特性或者统一数据量纲。
0.1 数据变换的内容
数据变换按照不同的目的,可以分以下几个方案:
- 函数变换
- 数据标准化(归一化)
- 离散化
1.1 函数变换
函数变换法主要目的:
- 为了更简单的特性
- 为了更好的分析数据特性
- 为了更简单的操作
1.2 几种函数变换方案
对数变换
对于指数级急剧变化特点的数据集,进行对数变换能够将其变换成线性变化的数据集,而且能够压缩数据范围,数据可视化效果更好。
X
l
o
g
=
l
o
g
(
X
)
X_{log} = log(X)
Xlog=log(X)
小波变换
主要的一种信号分析的手段
2.1 数据标准化(归一化)
对于不同指标的数据可能数值间差别很大,为了更好的开展数据分析工作,一般需要进行数据归一化,将他们转化到统一的量纲。
2.2 几种标准化方案
max-min标准化
可以将数据转换到
[
0
,
1
]
[0,1]
[0,1]范围内,但是由于采用了数据集的数据特征,所以需要再标准化前做好异常值剔除。
X
s
c
a
l
e
=
X
−
m
i
n
(
X
)
m
a
x
(
X
)
−
m
i
n
(
x
)
X_{scale} = \frac{X-min(X)}{max(X)-min(x)}
Xscale=max(X)−min(x)X−min(X)
Z-Score变换
通常将具有正态分布特点的变换成标准正态分布,方便进一步分析。
X
z
−
s
c
o
r
e
=
X
−
X
ˉ
σ
X_{z-score} =\frac{X-\bar{X}}{\sigma}
Xz−score=σX−Xˉ
小数定标标准化
这种方法通过移动数据的小数点位置来进行标准化。
X
∗
=
X
1
0
j
,
j
=
l
o
g
10
m
a
x
(
X
)
X^*=\frac{X}{10^j}\quad, j=log_{10}max(X)
X∗=10jX,j=log10max(X)
3.1 离散化
将连续属性离散化成若干组能够满足数据挖掘的要求,主要的方法有以下几种:
- 等宽法:将数据填入等分的区间,类似频率分布
- 等频法:将数据按照百分比填入不同区间
- 基于聚类方法
文章导引列表:
机器学习
- 小瓜讲机器学习——分类算法(一)logistic regression(逻辑回归)算法原理详解
- 小瓜讲机器学习——分类算法(二)支持向量机(SVM)算法原理详解
- 小瓜讲机器学习——分类算法(三)朴素贝叶斯法(naive Bayes)
- 待续
数据分析
- 小呆学数据分析——使用pandas中的merge函数进行数据集合并
- 小呆学数据分析——使用pandas中的concat函数进行数据集堆叠
- 小呆学数据分析——pandas中的层次化索引
- 小呆学数据分析——使用pandas的pivot进行数据重塑
- 小呆学数据分析——用duplicated/drop_duplicates方法进行重复项处理
- 小呆学数据分析——缺失值处理(一)
- 小呆学数据分析——异常值判定与处理(一)
- 小瓜讲数据分析——数据清洗
数据可视化