一、图表展示定性数据
定性数据包括分类数据和顺序数据(通常用频数分布表和图形描述)。
饼图、直方图、环形图来描述的是单变量的数据。
(一)频数分布表
频数分布表中落在某一特定类别的数据个数称为次数或频数,各组频数与各组次数总和之比称为频率。
(二)定性数据图形展示
饼图、条形图、环形图、帕累托图
描述人口性别比例适宜的图形饼图、条形图。
1.饼图:又称圆饼图、圆形图,利用圆形及圆内扇形面积表示数值的大小的图形。饼图用于总体中各组成部分所占比重的研究。
2.条形图:用宽度相同的条形高度或长度表示数据多少的图形。
3.环形图:比较不同变量之间的结构差异。(多个样本)
题型:1.比较两个企业员工队伍的学历结构,用环形图表示比较适宜。
4.帕累托图:又称排列图或主次图。按照各类别数据的频数多少排序(即根据频率降序排列)绘制,并在同一张图中画出累积百分比。
二、图表展示定量数据
(一)频数分布表
生成定量数据的频数分布表时,首先数据进行1.分组,然后再统计出各组别的数据频数。
统计分组的关键两个,一是分组,二是划定各组界限。
一般分组个数在5-15之间,确定组距,组距等于全距(全部数据中最大值与最小值之差)除以组数。
组距=全距/组数 全距=组距*组数
题型:1.在编制等距数列时,如果全距等于56,组数为6,为统计运算方便时,组距取9。是否正确?
全距=组距*组数 全距=6*9=54<56,则此种分组不能包含所有数据,所以组距为9不恰当,可以取组距为10。
2. 在编制等距数列时,如果全距等于54,组数为6,为统计运算方便时,组距取9。是否正确?
全距=组距*组数 全距=6*9=54=54,则此种分组能包含所有数据,所以组距为9恰当。
2.确定组距时,一般遵循的原则:一是考虑各组的划分是否能区分总体内部各个组成部分的性质差别。(学生成绩必须有60分的组限)
二是能准确、清晰反映总体单位的分布特征。
3.统计出各组的频数得出频数分布表,若相邻两组的上下限重叠,采取上限不在内的原则,即将该频数计算在与下限相同的组内。
题型:1.在反映学生身高分布时,将其分组为120厘米、120~130厘米、130~140厘米、140厘米以上。
120厘米在第二组,130厘米在第三组。
2.对全班同学成绩采用如下分组:40分以下,40分~60分,60分~80分,80分以上。
(二)定量数据图形展示
直方图、散点图、折线图
1.直方图:横坐标代表变量各组的界限,也代表数值大小。纵坐标代表个变量值出现的频数或频率。
题型:1.抽样调查1000家小微企业的经营情况,最适用来描述小微企业利润数据特征的图形为直方图。
2.反映变量分布的统计图为直方图。
2.折线图:利用线段的升降起伏来表现描述的变量在一段时期内的变动情况。主要用于显示时间序列的数据,以反映食物发展变化的规律和趋势。
题型:1.反映企业历年来产量的变化情况最适用的图形为折线图。
2.反应GDP动态变化情况适宜图形为折线图
3.散点图:观察两个变量之间的相关程度和类型最直观的方法。
题型:1.频数分布表既适用于定性数据也适用于定量数据。
2.描述产品产量和单位成本关系合适的图形为散点图。
3.既适用于定性数据也适用于定量数据的图形有饼图、条形图、环形图。
三、用统计表来表示数据
一个完整的统计表从结构来看一般包括:表头、行标题、列标题、数据资料、对表中指标或数据的补充说明一般作为附加部分放在统计表的下方。
四、用数字来概括数据
数据的分布特征,从三个方面考察:1.该组数据的集中趋势,即该组数据的数值向其中心值的靠拢程度;2.是离散程度,该组数据的各个数值远离其中心值的趋势和程度;3.分布的形状,即分布函数的“高矮胖瘦”。
(一)集中趋势的度量
常用的数据集中趋势测度值有众数、中位数、分位数、平均数。
1.定性数据主要是计数,比较简单。
顺序数据集中趋势重用的方法是计算百分比、中位数、众数。
分类数据集中趋势常用的计算方法:众数
2.定量数据的数值有实际含义,可以进行加减乘除计算,反映定量数据的集中趋势的测度值有平均数、中位数、众数和分位数。
(1)众数:一组数据中出现次数或频率最多的数值。是一种位置平均数,不受极端变量值的影响。
分类数据集中趋势常用的计算方法:众数。也可以用来测度顺序数据和数值型数据的集中趋势。
(2)中位数:按照大小排列处在数据中点位置,是典型的位置平均数,不受极端变量值的影响。
中位数主要用于顺序数据、数值型数据,但不能用于分类数据。
题型:1.采用众数、中位数来反映学生上网时间的平均水平。
2.5名股票经纪人的年收入分别为19万元、28万元、46万元、39.5万元、150万元,以下指标中更适宜反映经纪人收入水平的是中位数。
数据中存在150万元属于极端值,对平均数的代表有较大的影响。该组数据每一个数值均只出现一次,不存在众数。
(3)平均数:表述某一事物的平均水平。缺点易受少数极端数值的影响。
1.算术平均数
未分组简单平均数
分组加权平均数
2.几何平均数
题型:1.如果一批数据中有少数极端值,则描述其集中趋势不宜采用简单平均数。
平均数缺点易受少数极端值影响,对于严重偏态分布的数据,平均数的代表性较差。而加权平均数是针对分组数据的,中位数和众数不受极端值影响,具有统计稳健性。
中位数和众数不受极端值的影响,具有统计上的稳健性。
(二)离中趋势的度量
反映数据离散程度的测度指标:异众比率、极差、四分位距、平均差、标准差、方差和离散系数。
(1)异众比率
非众数组的频数占总频数的比率。
主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差。
题型:1.在一项对4G用户的调查中调查了1000人,其中有663人使用移动运营商的网络,则异众比率是33.7%。
总频数1000人,非众数:1000-663=337人 异众比率=337/1000=33.7%
(2)极差
极差又称全距,一组数中的最大值与最小值之差。非常容易受极端值的影响,因此不能准确描述数据的离散程度。
(3)四分位距
(4)平均差
平均差是一组数据与其均值之差的绝对值的平均数,也称为平均绝对差,利用了全部数据计算,因此易受到极端值的影响。
(5)标准差和方差
标准差是方差的平方根。
题型:1.标准差的大小会受到数据本身数值大小或者计量单位不同的影响,如数列1、2、3、4、5的均值=3,标准差=1.58,而数列1001、1002、1003、1004、1005的均值=1003,标准差=1.58。虽然这两个数列的标准差相同,但是两数列的差异程度却不相同。所以并非所有性质相同的两列数列可以采用标准差来比较其平均数的代表性。
2.在一个统计样本中,标准差越大,说明它的各个观测值分布的越分散,它的趋中程度越差。
(6)离散系数
离散系数=标准差/均值
题型:一组数据的离散系数为0.5,平均数为20,则标准差为
标准差=0.5*20=10
(7)标准分数
标准分数=(变量值-平均值)/标准差
题型:1.标准分数最大的用途就是可以把两组数据中的两个不同均值、不同标准差的数据进行对比,以判定它们在各组中的相对位置。
2.某男生的身高176cm,某女生身高170cm,通过资料了解,男生身高均值172cm,标准差2.8cm,女生身高均值164cm,标准差2.5cm。
某男生身高标准分数=(176-172)/2.8=1.43
某女生身高标准分数=(170-164)/2.5=3.2
(三)偏态与峰度的度量
(1)偏态系数 SK
当 SK>0,表示正偏离差数值越大,可判断为正偏或右偏;SK<0,可判断为负偏或左偏。
(2)峰度系数
K=0,数据服从标准正态
K>0,尖峰 K<0,扁平
题型:1. SK=-0.85,K=-1.92判断?
SK=-0.85<0 左偏,K=-1.92扁平