统计学:是收集、整理(筛选、纠错)、分析(找规律:备注)、表述(用图表列示)和解释数据的科学。统计学在数据科学是非常重要的,同时是数据工程师必备的技能;本章主要讲数据的整理&展示基本都是理论~
目录
数据预处理
品质数据的整理与展示
数值型数据的整理与展示
数据展示
数据预处理
数据审核:(检查数据中的错误)
原始数据(完整性审核,准确性审核)
二手数据(适用性审核,时效性审核,确认是否必要做进一步的加工整理)
筛选:找出符合条件的数据
排序 :升序和降序、寻找数据的基本特征
品质数据的整理与展示
分类数据的整理与展示:
基本过程:
1.列出各类别
2.计算各类别的频数
3.制作频数分布表
4.用图像显示数据
频数:落在各类别中的数据的个数
比例:某一类别数据占全部数据的比值
百分比:将比例转成分母为100的形式
比率:不同类别直接的比值
顺序数据的整理与展示:
–亦可计算累计频数(累积百分比):将各类别的频数逐级累加
–亦可计算累计频率:将各类别的频率(百分比)逐级累加
–累积有两种:向上累积(沿顺序方向累加)与向下累积(逆顺序方向累加)
数值型数据的整理与展示
数据分组
什么是单变量分组?(概念要点)
1.将一个变量值作为一组
2.适合于离散变量
3.适合于变量值较少的情况
什么是组距分组?(概念要点)
1.将变量值的一个区间作为一组
2.适合于连续变量
3.适合于变量值较多的情况
4.必须遵循“不重不漏”的原则
5.可采用等距分组,也可采用不等距分组
数据展示
直方图
1.用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布
2.在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)
3.直方图下的总面积等于1
折线图
1.折线图也称频数多边形图(Frequency polygon)
2.是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉。
3.折线图的两个终点要与横轴相交,具体的做法是
第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。
折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的。
茎叶图(未分组数据)
1.用于显示未分组的原始数据的分布
2.由“茎”和“叶”两部分构成,其图形是由数字组成的
3.以该组数据的高位数值作树茎,低位数字作树叶
4.对于n(20≤n≤300)个数据,茎叶图最大行数不超过
L = [ 10 × log 10 n ]
5. 茎叶图类似于横置的直方图,但又有区别
l直方图可大体上看出一组数据的分布状况,但没有给出具体的数值
l茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息
注:茎叶图第一行数据 树茎:10 树叶:788 数据个数:3 表示 为数据 107,108,108
箱线图
1.用于显示未分组的原始数据或分组数据的分布
2.箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成
3.其绘制方法是:
首先找出一组数据的5个特征值,即最大值、最小值、中位数Me 和两个四分位数(下四分位数QL和上四分位数QU)
连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接
往期精选
关注公众号,加小编微信即可拉入线上交流群