【Data Science · Statistics 01】关于统计我们在聊些什么


1.1 统计学是什么?

Statistics is a mathematical body of science that pertains to the collection, analysis, interpretation or explanation, and presentation of data.

1.1.1 定义

统计学是围绕数据展开的科学,涉及数据的收集处理分析解释推断呈现,并从数据中得出结论

故也不难解释关于数据科学的系列文章选择从统计学开始讲起。

统计分析的研究对象是来自各领域的数据。数据收集即获取统计数据;数据处理即将获取的统计数据经过整理、筛选、汇总等一系列步骤,用图表等恰当的方式呈现出来;数据分析即选择合适的统计方法研究数据,并从中发现有价值的信息进而得出结论或作出推断。

1.1.2 分类

描述统计(descriptive statistics),描述或总结数据的基本情况,主要处理关于叙述的问题——以数学或图表的形式。基本的数学描述包括平均数、标准差、偏态系数等。基本的图表则包括条形图、饼图、线图、散点图等。

推断统计(inferential statistics),研究如何利用样本数据作出对于总体数据特征的推论。包括假设检验,估计,相关性预测,时间序列预测等。

1.2 统计数据有哪些?

1.2.1 不同的收集方法

观测数据(observational data),通过调查或观测收集到的数据。这类数据通常是在没有对事物实施人为控制的条件下获得的,例如有关于社会经济现象的统计数据几乎都是观测数据。

实验数据(experimental data),在实验中控制实验对象而收集到的数据,自然科学领域的大多数数据是实验数据,比如针对某种传染疾病的疫苗预防效果的实验数据。

1.2.2 不同的计量尺度

分类数据(categorical data),非数字型,使用分类尺度(nominal scale),按照事物的某种属性对其进行的分类。数据表现为类别,用文字来表述。例如,人口按照性别分为男、女两类。

顺序数据(rank data),非数字型,使用顺序尺度(ordinal scale)。数据表现为有序的类别,用文字来表述。例如,考试成绩可以分为优、良、中、及格、不及格等。与分类数据的区别在于类别是否有序。

为便于统计处理,分类数据和顺序数据都可以用数字代码来表示各个类别。
比如用 1 代表分类数据中的“男性”,0 代表“女性”;用 1 代表顺序数据中的“优”,2 代表“良”,3 代表“中”,4 代表“及格“,5 代表”不及格“。值得注意的是,此处的数字无法反应数量关系。

数值型数据(metric data),数值型,使用间隔尺度(interval scale)和比率尺度(ratio scale)。比如2019年6-8月北京地区的每日监测气温及某款冰激凌在北京地区连续三个月的每日销售量。气温使用的是间隔尺度,冰激凌销售量使用的是比率尺度。(PS:间隔尺度无绝对零点,比率尺度有绝对零点

分类数据和顺序数据说明的是事物的品质特征,均表现为类别,通常用文字来描述,故可统称为定性数据或品质数据(qualitative data);数值型数据说明的是现象的数量特征,通常用数值来表现,因此也称为定量数据或数量数据(quantitative data)

1.2.3 不同的时间状况

截面数据(cross-sectional data),在相同或相似相同的时间点上收集的数据,通常在不同的空间获得,用于描述现象在某一时刻的变化情况。例如,2018年我国各省份地区的国内生产总值。

时间序列数据(time series data),在不同时间节点收集的数据,通常按照时间顺序收集,用于描述现象随时间变化的情况。例如,2013年-2019年全国国内生产总值。

1.2.4 小结

统计数据分类框架如下图所示:

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值