数据挖掘笔记(1)-数据探索

本文介绍了数据探索的重要性和方法,包括数据质量分析和数据特征分析。在数据质量分析中,探讨了缺失值、异常值、不一致值和重复数据的检查。在特征分析中,详细阐述了分布分析、对比分析、统计量分析等多个方面,提供了实例和常用统计方法,如频率分布、动态相对数和相关性分析。
摘要由CSDN通过智能技术生成

数据探索有助于选择合适的数据预处理方法和建模方法,数据探索可以从数据质量分析和数据特征分析两个角度进行探索。

数据质量分析

数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据有一般有以下内容:

  • 缺失值
  • 异常值
  • 不一致的值
  • 重复数据以及含有特殊符号的数据

缺失值分析
使用统计分析对含有缺失值的属性计算缺失数和缺失率。
异常值分析

  • 利用简单统计量
    比如通过判断某个变量的最大值与最小值是否超过某个范围来判断它是否存在异常数据。
  • 3σ原则
    如果数据服从正态分布,异常值被定义为与均值的偏差超过3倍的标准差的值。
  • 箱型图
    QU代表3/4分位数,也叫上分位数
    QL代表1/4分位数,也叫下分位数
    IQR=QU-QL代表上分位数与下分位数之间的距离
    异常值被定义为小于QL-1.5IQR或者大于QU+1.5IQR的值

一致性分析
查看同一数据在不同地方是否保持一致

数据特征分析

分布分析

  • 同种类型数据的分布分析
    步骤:
    1)求极差
    2)决定组数和组距
    3)决定分点
    4)列出频率分布表
    5)绘制频率分布图
    实例:
    数据为4-6月某饭店的销售额,现在想分析这三个月内饭店的销售额集中在哪一块儿?
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值