数据分析|数据的整理&展示

统计学:是收集、整理(筛选、纠错)、分析(找规律:备注)、表述(用图表列示)和解释数据的科学。统计学在数据科学是非常重要的,同时是数据工程师必备的技能;本章主要讲数据的整理&展示基本都是理论~

目录

  1. 数据预处理

  2. 品质数据的整理与展示

  3. 数值型数据的整理与展示

  4. 数据展示

数据预处理

数据审核:(检查数据中的错误)

    原始数据(完整性审核,准确性审核)

    二手数据(适用性审核,时效性审核,确认是否必要做进一步的加工整理)

筛选:找出符合条件的数据

排序 :升序和降序、寻找数据的基本特征

品质数据的整理与展示

分类数据的整理与展示:

基本过程:

    1.列出各类别

    2.计算各类别的频数

    3.制作频数分布表

    4.用图像显示数据

频数:落在各类别中的数据的个数

比例:某一类别数据占全部数据的比值

百分比:将比例转成分母为100的形式

比率:不同类别直接的比值

顺序数据的整理与展示:

–亦可计算累计频数(累积百分比):将各类别的频数逐级累加

–亦可计算累计频率:将各类别的频率(百分比)逐级累加

–累积有两种:向上累积(沿顺序方向累加)与向下累积(逆顺序方向累加)

数值型数据的整理与展示

数据分组

什么是单变量分组?(概念要点)

1.将一个变量值作为一组

2.适合于离散变量

3.适合于变量值较少的情况

 

什么是组距分组?(概念要点)

1.将变量值的一个区间作为一组

2.适合于连续变量

3.适合于变量值较多的情况

4.必须遵循“不重不漏”的原则

5.可采用等距分组,也可采用不等距分组

数据展示

直方图

1.用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布

2.在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)

3.直方图下的总面积等于1

折线图

1.折线图也称频数多边形图(Frequency polygon)

2.是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉。

3.折线图的两个终点要与横轴相交,具体的做法是

第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。

折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的。

茎叶图(未分组数据)

1.用于显示未分组的原始数据的分布

2.由“茎”和“叶”两部分构成,其图形是由数字组成的

3.以该组数据的高位数值作树茎,低位数字作树叶

4.对于n(20≤n≤300)个数据,茎叶图最大行数不超过

 L = [ 10 × log 10 n ]

5.    茎叶图类似于横置的直方图,但又有区别

l直方图可大体上看出一组数据的分布状况,但没有给出具体的数值

l茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息

注:茎叶图第一行数据 树茎:10   树叶:788   数据个数:3   表示 为数据 107,108,108

箱线图

1.用于显示未分组的原始数据或分组数据的分布

2.箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成

3.其绘制方法是:

首先找出一组数据的5个特征值,即最大值、最小值、中位数Me 和两个四分位数(下四分位数QL和上四分位数QU)

连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接

往期精选

机器学习|梯度下降法

机器学习|逻辑回归

机器学习|决策树


关注公众号,加小编微信即可拉入线上交流群

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值