本文来阐述统计学基本的描述性统计分析在SAS软件内的实现方法与案例解读,首先大概过一遍统计学基本的描述性统计。
描述性统计就是利用手里已有的数据,分析数据的集中趋势和离散趋势,总体来说在统计学内数据可以分为以下三种类型:
一:分类数据,又名定性数据或者品质数据。这是一种非数字型数据。比如人口按照性别分可以分为男、女,企业可以按照行业属性分为:互联网企业、医药企业、家电企业等等。当然日常统计中为了方便起见,我们可以将这些变量赋予一个不支持加减乘除运算的数字(这儿说的不支持是因为对其进行加减乘除没有什么实际意义),例如人口按照性别分类中我们可以将男记为0,女记为1(当然反过来男1女0也是可以的)。
二:顺序数据。它是分类数据的一种,但是!!!它的变量是有顺序的,或者说它的变量是有重要和不重要之分的!! 例如,一个学生的考试成绩我们可以用:优、良、中、及格、不及格来表示,这儿有着明显的主次顺序,即优>良>中>及格>不及格(当然你想反过来不及格<及格...)也没问题。同样在日常的统计中,为了方便(反正就一个原则,怎么方便怎么来),将其赋予一个不支持加减乘除运算的数字,优——1,良——2,中——3,及格——4,不及格——5。
三:数值型数据,又名定量数据,其变量为数值形式的变量。故名思意,这是一种数值数据。而数值型数据中的变量又可以分为两类:
1,离散型变量
这些变量一般以整数的形式出现,可以一一列举。举个简单的例子:不同城市的企业数量,这些数据一定是数值型数据,这就是离散型变量,它的特点是你只能取它的整数值,也就是说你可以说其中一个城市有100家企业,但是你要是说这个城市有100.5家企业,这就没有什么意义了,因为我们都知道0.5家企业这是不存在的。同理的还有产品数量、汽车产量等等。
2,,连续型变量
与离散型变量相对应,这些变量可以取小数部分。比如一个城市所有人的平均身高,它可以是175cm,也可以是175.1cm或者175.2cm,这都是没问题的。这一类连续变化的变量我们就称之为连续型变量。
接下来介绍数据集中趋势和数据离散趋势的度量方法。
一:数据的集中趋势
1,众数:一组数据中出现最多的变量即为众数。
2,分位数:常用的有中位数(即二分位数)、四分位数、百分位数等,定义为分位数(n分位数)通过n-1个数据点将我们的数据平均分为了n份
3,平均数:平均数可以分为三类
1)简单平均数:公式为
2)加权平均数(针对分组数据),公式为