- 统计的应用可以分为描述统计(即报表)和推断统计(即预测建模)
- 样本来源于总体,是试验的产物,变量是每个试验单元的特征或属性
- 推断统计的五要素:总体、变量、样本、推断、可靠性
- 过程是讲输入转化为输出的一系列行动或操作,过程产生的一系列输出被称为样本
- 所有数据可以分为定量数据或定性数据
- 有代表性的样本指变量取值可以代表总体特征的样本
- 获取有代表性的样本的方法有:
- 简单随机抽样
- 分层随机抽样
- 整群抽样
- A(mn)=n!/(n-m)!;C(mn)=n!/m!(n-m)!
- 偏差有选择偏差、无应答偏差、测量误差
- 类别是指定性数据被分成几个种类之一;类别频率是指属于某个类别的观测个数;
- 类别相对频率=类别频率/类别总数
- 样本方差s^2的除数为(n-1)使s^2使总体方差的一个无偏估计量
- 在实际应用中,求出样本方差不是目的,是为了进一步预测总体方差才找出的
- 总体方差的除数为总体样本数
- 利用均值和标准差来描述数据集
- 切比雪夫法则
- 经验法则:适用于土墩形且对称的数据集
- 大约有68%的观测值落在总体均值±1*总体标准差的总体范围内
- 大约有95%的观测值落在总体均值±2*总体标准差的总体范围内
- 大约有99.7%的观测值落在总体均值±3*总体标准差的总体范围内
- 有时,会用极差/4来得到一个较大的保守的标准差值;前提是土墩形数据
- p百分位点:对于升序数据集,第p个百分位点即有p%*N个预测值比它小,其余比它大
- 四分位数即
- QL下四分位
- QM中位数
- QU上四分位
- 四分位数即
- z得分=(x-样本均值)/样本标准差
- 在数据集中,异常值:
- 被错误记录的数据
- 来自不同的总体
- 来源正确,描述了一个稀有的事件
- 常见的检测异常值的方法
- 箱线图
- z得分
- 箱线图基于四分位差:IQR=QU-QL
- 上内栏=QU+1.5IQR
- 下内栏=QL-1.5IQR
- 上外栏=QU+3IQR
- 下外栏=QL-3IQR
- 落在内栏和外栏之间的观测值用*表示;在外栏外的用0表示
- 其实*即可疑的数据(或z的绝对值>2);0即高度可疑值(或z的绝对值>3)
- 随着时间的推移产生并得到监控的数据即时间序列数据