Preprocessing
现实生活中的数据往往是dirty的,包含了数据缺失,数据错误等,对质量较差的数据进行数据挖掘,通常不能获得一个好的pattern,因此preprocessing十分重要。
Descriptive data summarization
通常用mean、median以及mode描述数据的Central Tendency(平均值、中值、众数)
boxplot
要绘制boxplot需要一些关键参数
Q
1
Q_1
Q1 = 数据升序排列第25%的数值
Q
3
Q_3
Q3 = 数据升序排列第75%的数值
M中位数
IQR =
Q
3
−
Q
1
Q_3 - Q_1
Q3−Q1
m
i
n
=
Q
1
−
1.5
I
Q
R
min = Q_1 - 1.5 IQR
min=Q1−1.5IQR
m
a
x
=
Q
3
+
1.5
I
Q
R
max = Q_3 + 1.5 IQR
max=Q3+1.5IQR
这里有详细的描述boxplot
Binning
通过将数据分到不同的bin里,实现数据的smoothing。
data normalization
最大值最小值标准化:
z-score标准化
通过标准差和均值实现标准化
将大数据标准化
Numerical Data(数据相关性)
Correlation coefficient
通过标准差和平均值计算数据的相关系数,系数为正则表明是正相关,为负则为负相关,若为0则A和B互相独立。
Categorical Data
这里的observed是观测到的数据,expected是根据sum这一列数据的分布计算得到的数据,(括号里的数据)
X
2
X^2
X2越大则表示特征的相关性越强