数据挖掘 note2

数据探索是数据挖掘的重要步骤,旨在理解数据特点,包括数据类型、质量及分布。常用技术包括统计学、可视化和聚类。摘要统计如频率、模式、百分位数、平均值和中值提供了数据的概况。可视化技术如直方图、箱形图、散点图、矩阵图和平行坐标等帮助直观展示数据。数据属性分为名义、顺序、间隔和比率四种类型,选择正确的数据处理方法取决于属性的特性。
摘要由CSDN通过智能技术生成

Outline

1、数据特点
属性和对象
数据类型
数据质量
2、 基本数据探索技术
基本统计学
数据可视化
3、对分类问题的介绍
决策树

Data exploration

初步的数据探索是为了更好的理解数据特点

  • 其动机在于:有助于在为数据预处理和分析时选择正确的工具、利用人类的能力识别模式

  • 用到的技术有: 可视化、聚类和异常检测
    要注意的是,在数据挖掘中,聚类和异常检测是主要的关注领域,而不是仅仅是探索性技术。

摘要统计summary statistics
摘要统计是总结到的数据属性的个数。汇总的属性包括频率,位置和散布。比如我们用均值定位,用标准差确定散布程度


频率和模式
frequency:某属性的频率就是该属性出现的百分比
mode:属性的模式是最频繁的属性值
百分位percentiles
一般对于连续数据,百分位的概念更有用。
定义:给定连续属性x 和 介于0和100之间的数字p,那么第p个百分位数xp,就是使x的前p%的值均小于xp。

(来自百度百科:一组n个观测值按数值大小排列。处于p%位置的值称第p百分位数)
平均值,中值

  • mean平均值:比较通用的位置测量方法&#
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值