数据挖掘与预测分析 读书笔记(一)

数据挖掘的任务:描述、评估、预测、分类、聚类、关联

数据:分类数据、顺序数据、数值数据

收集数据的五大调查方式:抽查、重点调查、普查、统计报表、典型调查

数据预处理:

原因:原始数据不完整且含有噪声(过时、冗余、缺失、离群、异常)

最主要目的:最小化无用数据输入和无用数据输出(GIGO)

处理缺失值:

1、常量替代

2、对于分类数据用众数替代,对于数值型数据用均值替代

3、从数据分布中随机产生一个值替代

4、估计缺失值

注:对于数值型数据 3比2好的一点是中心和散布的度量值与原始值更为接近

标准的4个离散度量:极差、标准差(SD)、平均绝对偏差、四分位差(IQR)

标准差:(最常见,但对离群值异常敏感,涉及极端值时考虑用平均绝对偏差,

或去除离群值后再用)

平均绝对偏差:

数据规范化:

1、min-max法:[ X-Xmin ]  / [ Xmax-Xmin ]  (0,1)之间

2、Z-score法:[ X-mean(X) ]  / SD(X)   (-x,x)之间 Z-score之后均值为0 标准差为1 但并非是正态分布 可能是左右倾斜数据 需要用Q-Q图(正态概率图)来进行检验数据是否为正态分布,就是画出不同分位数的占比,如果数据点散布在一条直线上则满足正态性,反之不满足。

数据右偏可以对数据取对数、取平方根、平方根倒数等变换使数据接近正态分布。因为这样变换后的导数是逐渐减小的,增速逐渐减慢可使数据向左移, 如果左偏的话可以取相反数转化为右偏数据。

3、小数规范化:X / 10^d ,其中d是数据位数 (-1,1)之间

判断数据倾斜度:

倾斜度 = 3*(均值-中位数)/ 标准差

若均值大于中位数 为 右倾数据 正倾斜

若均值小于中位数 为 左倾数据 负倾斜

处理离群值:

非参数方法:

1、校验数据的直方图即可

2、Z-score值小于-3或大于3判定为离群值(有SD所以对极端值敏感)

3、采用IQR法:IQR=Q3-Q1,Q3是数据75%分位数,Q1是数据25%分位数

(比SD衡量离散度更好)

小于【Q1-1.5*IQR】或大于【Q3+1.5*IQR】视为离群值

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

夏曦儿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值