数据挖掘复习(二)

Preprocessing

现实生活中的数据往往是dirty的,包含了数据缺失,数据错误等,对质量较差的数据进行数据挖掘,通常不能获得一个好的pattern,因此preprocessing十分重要。

Descriptive data summarization

通常用mean、median以及mode描述数据的Central Tendency(平均值、中值、众数)

boxplot

要绘制boxplot需要一些关键参数
Q 1 Q_1 Q1 = 数据升序排列第25%的数值 Q 3 Q_3 Q3 = 数据升序排列第75%的数值
M中位数
IQR = Q 3 − Q 1 Q_3 - Q_1 Q3Q1
m i n = Q 1 − 1.5 I Q R min = Q_1 - 1.5 IQR min=Q11.5IQR
m a x = Q 3 + 1.5 I Q R max = Q_3 + 1.5 IQR max=Q3+1.5IQR
在这里插入图片描述
这里有详细的描述boxplot

Binning

通过将数据分到不同的bin里,实现数据的smoothing。
在这里插入图片描述

data normalization

最大值最小值标准化:
在这里插入图片描述
z-score标准化
通过标准差和均值实现标准化
在这里插入图片描述
将大数据标准化
在这里插入图片描述

Numerical Data(数据相关性)

Correlation coefficient
在这里插入图片描述
通过标准差和平均值计算数据的相关系数,系数为正则表明是正相关,为负则为负相关,若为0则A和B互相独立。
Categorical Data
在这里插入图片描述
在这里插入图片描述
这里的observed是观测到的数据,expected是根据sum这一列数据的分布计算得到的数据,(括号里的数据)
X 2 X^2 X2越大则表示特征的相关性越强

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值