由于图片需要从新上传不能直接复制,因此此博客只有一部分,完整版(word版)见:https://github.com/AllenLee0/Miner
1、统计的含义:
统计工作:对数据的采集、加工处理、分析
统计资料:各项数字资料及与之相关信息
统计学
2、通常将统计数据分为分类数据、顺序数据、数值型数据,其中将分类数据、顺序数据统称为定性数据(品质数据),数值型数据称为定量数据(数量数据)
3、面板数据:是对若干个单位在不同时间进行重复跟踪带调查所形成的数据。
4、截面数据:是在相同时间或者相近时间的时间点上收集的数据,通常在不同的空间上收集的,以描述现象在某一时刻的变化情况。
5、时间序列数据:是在不同时间收集到的数据,按时间顺序收集的数据,用于现象随时间变化的情况。
6、统计学方法:
描述性
推断性
统计建模
7、指标:放映总体数量特征的,由每个个体的指标值,汇总综合而成,分为总体指标和样本指标。
8、数据调查的方法:
全面调查
统计报表
普查
抽样调查
重点调查
典型调查
9、资料分为:
原始资料
次级资料
10、数据收集方法
现场调查法
报告法
访谈法
问卷法
实验采集法
垃圾收集法
11、抽样误差:有抽样的随机性引起的样本结果和总体结果之间的误差。
非抽样误差:除抽样误差之外的误差。
12、数据组数的划分:
数据组数不应该小于5也不应该大于15.
组数=1+log样本数,以10为底
13、数据的集中性趋势的度量:
分类数据:众数
顺序数据:中位数和分位数,例如四分位数
数值型数据:平均数,例如简单平均数、加权平均数、几何平均数
14、众数、中位数和平均数的比较:
众数是一组数据的分布的峰值,一般不受极端数据的影响
中位数是一组数中间位置上的数据,一般不熟极端数据的影响
平均数是数值型数据的,受到极端数据的影响
15、离散数据的度量:
分类数据:异众比率,非众数组占总频数的比例,用V表示
顺序数据:四分位数,上四分位数和下四分位数之差,
数值型数据:极差、平均差、方差、标准差、相对位置的度量(标准分数、切比雪夫不等式)
16、相对离散程度:离散系数
离散系数或者变异系数,一组数据的标准差和平均数之比。‘
离散系数越大。离散程度也大。
17、偏态与峰态的度量:
偏态及其度量:
偏态(skewness),是指非对称分布的偏斜状态。换句话说,就是指统计总体当中的变量值分别落在众数(M0)的左右两边,呈非对称性分布。统计数据峰值与平均值不相等的频率分布。众数和平均数之差可作为分配偏态(skewnessdistribution)的指标之一。如平均数大于众数,称为正偏态(positiveskewness);相反,则称为负偏态(negativeskewness)。即:
如果X'>M0,这种偏态称为正偏态或右偏态,正偏态g1>0;
如果X'<M0,这种偏态称为负偏态或左偏态,负偏态g1<0 。
一是左右不对称(即所谓偏态);
二是当样本增大时,其均数趋向正态分布。
零值:偏态系数的取值为0时,表示数据为完全的对称分布。
正值:偏态系数的取值为正数时,表示数据为正偏态或右偏态。
负值:偏态系数的取值为负数时,表示数据为负偏态,或左偏态。
注意事项:偏态系数的绝对数值越小,表示数据偏倚的程度越小;偏态系数的绝对数值越大,表示数据偏倚的程度越大。
峰态及其度量:
峰度(peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。
18、如果x~N(µ,σ²),则`X~ N(µ,σ²/n),中心极限定理:设均值为µ,方差为σ²(有限)的任意一个总体中抽取样本量为你的样本,当n足够大的时候,样本均值X的抽样分布近似服从均值为均值为µ,方差为σ²/n的分布。