数据挖掘---数据处理

大致流程:问题分析(需求分析),数据预处理(数据清洗,数据集成,数据归约),特征选择,模型选择(方案设计),模型求解,模型评估,模型解释,写成报告形式,展示。
先撇开问题分析不说,数据预处理是数据分析挖掘最重要也是最基本的步骤。因为数据的质量往往能决定结果的质量。所以本篇先不谈各种数据挖掘算法,先做好数据预处理的基本功才是最重要的。

只做总结,不作细说

一、认识数据
首先对数据进行一些基本的描述性统计分析。
1.数据基本统计描述
关于中心趋势度量:均值,中位数,众数,中列数
给定一个属性,看他的值大部分落在何处。
1.1均值:
算术平均
调和平均
几何平均
截尾平均(为抵消少数极端值的影响,放弃高低极端后的均值)

1.2中位数

1.3众数

2.数据的散布(离散程度)
2.1极差
2.2四分位数
2.3四分位极差
四分位极差IQR:Q3-Q1(第3个四分位数-第1个四分位数),这个指标可以用于离群点的识别。识别可以的离群点的通常规则是,挑选落在第3个四分位数以上或第1个四分位数之下至少1.5*IOR处的值
2.4五数概括
2.5盒子图
注意盒子图的画法:盒子图会有两个“胡须”,这两个胡须一般是数据集的最小值和最大值,中位数用盒内

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值