数据挖掘---数据处理

本文概述了数据挖掘的过程,重点讨论数据预处理的重要性和步骤,包括数据清洗(缺失值处理、噪声数据平滑、离群点识别)、数据集成(实体识别、冗余分析)、数据归约(维归约、数值归约)和数据变换。通过对数据的描述性统计分析、相似性和相异性度量,以及预处理方法,强调了数据质量对结果的影响。
摘要由CSDN通过智能技术生成

大致流程:问题分析(需求分析),数据预处理(数据清洗,数据集成,数据归约),特征选择,模型选择(方案设计),模型求解,模型评估,模型解释,写成报告形式,展示。
先撇开问题分析不说,数据预处理是数据分析挖掘最重要也是最基本的步骤。因为数据的质量往往能决定结果的质量。所以本篇先不谈各种数据挖掘算法,先做好数据预处理的基本功才是最重要的。

只做总结,不作细说

一、认识数据
首先对数据进行一些基本的描述性统计分析。
1.数据基本统计描述
关于中心趋势度量:均值,中位数,众数,中列数
给定一个属性,看他的值大部分落在何处。
1.1均值:
算术平均
调和平均
几何平均
截尾平均(为抵消少数极端值的影响,放弃高低极端后的均值)

1.2中位数

1.3众数

2.数据的散布(离散程度)
2.1极差
2.2四分位数
2.3四分位极差
四分位极差IQR:Q3-Q1(第3个四分位数-第1个四分位数),这个指标可以用于离群点的识别。识别可以的离群点的通常规则是,挑选落在第3个四分位数以上或第1个四分位数之下至少1.5*IOR处的值
2.4五数概括
2.5盒子图
注意盒子图的画法:盒子图会有两个“胡须”,这两个胡须一般是数据集的最小值和最大值,中位数用盒内

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值