统计学还是机器学习之类的前提啊。今天看了看统计学教材(我的专业不学的),整理了一些要点。比起花里胡哨的举例来说,我还是觉得稳的概念更好。
定义
统计:
- 处理数据的一门科学。
- 提供的是一套有关数据收集、 处理、 分析、 解释并从数据中得出结论的方法。
- 研究的是来自各领域的数据。
统计方法:
- 只要有数据的地方就会用到统计
方法。 - 可以简化繁杂的数据
统计数据:
- 对现象进行测量的结果。
数据分析方法分类
- 描述统计方法
研究的是数据收集、 处理、 汇总、图表描述、 概括与分析等统计方法 - 推断统计方法
研究如何利用样本数据来推断总体特征的统计方法(抽样)
统计数据分类
有好几种分类方式。
根据计量尺度:
分类数据和顺序数据, 通常是用文字来表述的,均表现为类别,统称为定性数据或品质数据(qualitative data) :
- 分类数据
只能归于某一类别的非数字型数据。
数据表现为类别, 是用文字来表述的。 - 顺序数据
只能归于某一有序类别的非数字型数据。
但这些类别是有序的。
说明的是现象的数量特征, 通常是用数值来表现的, 因此
也可称为定量数据或数量数据(quantitative
data) :
- 数值 型数据
按数字尺度测量的观察值。
根据收集方法
- 观测数据
通过调查或观测而收集到的数据
这类数据是在没有对事物人为控制的条件下得到的
有关社会经济现象的统计数据几乎都是观测数据。 - 实验数据
在实验中控制实验对象而收集到的数据。
根据被描述的现象与时间的关系
- 截面数据
在相同或近似相同的时间点上收集
通常是在不同的空间上获得
描述现象在某一时刻的变化情况 - 时间序列数据
在不同时间上收集
按时间顺序收集
区分数据的类型是十分重要的, 因为对不同类型的数据, 需要采用不同的统计方法来处理和分析。
这里书给了我们一些好例子。
对分类数据我们通常计算出各组的频数或频率, 计算其众数和异众比率,进行列联表分析和X2检验等;
对顺序数据, 可以计算其中位数和四分位差, 计算等级相关系数等;
对数值型数据可以用更多的统计方法进行分析, 如计算各种统计量、 进行参数估计和检验等。
基本概念
总体和样本
总体:
包含所研究的全部个体(数据) 的集合。
当总体的范围难以确定时, 可根据研究的目的来定义总体。
根据其所包含的单位数目是否可数可以分为有限总体和无限总体(通常实验数据)。这样分主要是为了判别在抽样中每次抽取是否独立。
统计上的总体是一组观测数据, 而不是一群人或一些物品的集合。
样本:
从总体中抽取的一部分元素的集合
参数和统计量
参数(parameter):
用来描述总体特征的概括性数字度量, 它是研究者想要了解的总体的某种特征值。 由于总体数据通常是不知道的, 所以参数是一个未知的常数。 因为如此, 所以才进行抽样, 根据样本计算出某些值去估计总体参数。
统计量:
统计量(statistic) 是用来描述样本特征的概括性数字度量
它是根据样本数据计算出来的一个量, 由于抽样是随机的, 因此统计量是样本的函数。f(样本)
研究者所关心的统计量主要有:
- 样本平均数
- 样本标准差
- 样本比例
变量
是说明现象某种特征的概念, 其特点是从一次观察到下一次观察结果会呈现出差别或变化。 (变)
统计数据就是统计变量的某些取值。
变量可以分为以下几种类型。
- 分类变量
说明事物类别的一个名称, 其取值是分类数据。 - 顺序变量
说明事物有序类别的一个名称, 其取值是顺序数据。 - 数值型变量
说明事物数字特征的一个名称, 其取值是数值型数据。
当然,
也可以从其他角度对变量进行分类:
eg.
- 随机变量
- 非随机变量
eg.
- 经验变量(empirical variable)
描述的是周围环境中可以观察到的事物 - 理论变量(theoretical variable)
由统计学家用数学方法所构造出来的一些变量
比如后面的有些章节中将要用到的z统计量、 t统计量、 X2统计量、 F统计量等都是理论变量