第三章 探索数据

本章节聚焦于数据探索,涉及汇总统计如频率、百分位数、位置度量及散布度量,以及数据可视化技术,包括直方图、盒状图、散布图和高维数据的可视化方法。通过这些方法,可以更好地理解数据分布和数据间的关系。
摘要由CSDN通过智能技术生成

探索数据

  • 有助于选择合适的数据预处理和数据分析技术
  • 处理一些通常由数据挖掘解决的问题
  • 包括三个主题:汇总统计、可视化、OLAP

3.2 汇总统计

  • 频率和众数

    • 多用于分类数据
  • 百分位数

    • 多用于连续数据
  • 位置度量:均值和中位数

    • 均值对离群值很敏感 ——> 截断均值
  • 散布度量:极差和方差

    • 极差是最大值和最小值的差
    • 方差对离群值敏感,常常需要使用更稳健的估计:
      • 绝对平均偏差(AAS)
        在这里插入图片描述
      • 中位数绝对偏差(MAD)
        在这里插入图片描述
      • 四分位数极差(IQR)
        在这里插入图片描述
  • 多元汇总统计

    • 协方差矩阵:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值