第1章 导论


什么是统计学

统计学是收集、处理、分析、解释数据并从数据中得出结论的科学

数据分析所用的方法可分为描述统计方法推断统计方法

  • 描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法;
  • 推断统计是研究如何利用样本数据来推断总体特征的统计方法;

统计数据的类型
1. 分类数据、顺序数据、数值型数据

按照计量尺度的不同,可以将统计数据分为分类数据、顺序数据和数值型数据。

分类数据是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的;

顺序数据是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但是这些类别是有序的。比如将产品分为一等品、二等品、三等品、次品等;

数值型数据是按数字尺度测量的观察值,其结果表现为具体的数值。现实中所处理的大多数是数值型数据

分类数据和顺序数据说明的是事物的品质特征,通常是用文字来表述的,其结果均表现为类别,因而也可以统称为定性数据或品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因而也可称为定量数据或数量数据。


2. 观测数据和实验数据

按照统计数据的收集方法,可以分为观测数据和试验数据。

观测数据是通过调查或观测收集到的数据,这类数据是在没有对事物人为控制的条件下得到的,有关社会经济现象的统计数据几乎都是观测数据;

实验数据则是在实验中控制实验对象而收集到数据。


3. 截面数据和时间序列数据

按照被描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据。

截面数据是在相同或近似相同的时间点上收集的数据,这类数据通常是在不同的空间获得的,用于描述现象在某一时刻的变化情况。比如,2010年我国各地区的国内生产总值就是截面数据;

时间序列数据是在不同时间收集到的数据,这类数据是按时间顺序收集到的,用于描述现象随时间变化的情况。比如2010-2016年我国的国内生产总值就是时间序列数据


统计中的几个基本概念
  • 总体:包含所研究的全部个体(数据)的集合,它通常由所研究的一些个体组成;
  • 样本:从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量。抽样的目的是根据样本提供的信息推断总体的特征
  • 参数:用来描述*总体*特征的概括性数字度量,它是研究者想要了解的总体的某种特征值,比如总体平均数、总体标准差、总体比例等;
  • 统计量:用来描述*样本*特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。常用的统计量有样本平均数、样本标准差、样本比例等

由于样本是已经抽取出来的,所以统计量总是知道的。抽样的目的就是要根据样本统计量去估计总体参数。

除了样本均值、样本比例、样本方差这类统计量,还有一些是为统计分析的需要而构造出来的统计量,比如用于统计检验的z统计量、t统计量等。

  • 变量:说明现象某种特征的概念,其特点是从一次观察到下一次观察结果会呈现出差别或变化。如“商品销售总额”、“受教育程度”等都是变量。变量的具体取值称为变量值。变量可分为以下几种类型:
    1. 分类变量:说明事物类别的一个名称,其取值是分类数据。如:“性别”;
    2. 顺序变量:说明事物有序类别的一个名称,其取值是顺序数据,如:“产品等级”;
    3. 数值型变量:说明事物数字特征的一个名称,其取值是数值型数据。如:“产品产量”。数值型变量根据其取值的不同,又可以分为离散型变量和连续型变量。离散型变量是只能取可数值的变量,它只能取有限个值,而且其取值都以整位数断开,可以一一列举,如“企业数”;连续型变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,如“年龄”、“温度”等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值