数据分析
1 统计学简介
1.1 统计学简介
统计学(Statistics): 收集、处理、分析、解释数据并从数据中得出结论的科学。
统计学主要分为描述统计(Discriptive Statistics)和推断统计(Inferential Statistics)。
描述统计
研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法,本质是对数据进行总体特征的概述。
推断统计
研究如何利用样本数据来推断总体特征的统计方法。
推断统计其实是建立在描述统计基础上,对总体数据有了大致了解后,运用一些分析方法,对数据进行预测,并达到统计决策的目的。
1.2 统计研究步骤
- 设计
选题 => 明确研究目的 => 提出假设 => 明确总体范围 => 确立观察指标 => 控制研究中的偏移 => 给出具体的研究方案 - 收集数据
- 整理清洗数据
- 分析数据
统计描述:了解样本数据的情况,尽量精确、直观而全面地对所获得的样本进行分析;
统计推断:从样本数据外推到总体数据。
2 描述统计分析
2.1 集中趋势
- 均数
描述一组数据的平均水平,分为总体均数 μ \mu μ和样本均数 X ‾ \overline{X} X。
优点
高度浓缩了数据信息,使大量的样本数据转变成一个代表性的数值;
比较敏感,任何一个数据变化,均数都会随之改变。
缺点
掩盖了各个样本数据之间的差异性;
受极端值的影响较大。 - 中位数
将全体数据从小到大排列,处于中间位置的数据就是中位数。
优点
不受极端值的影响。
缺点
以偏概全,只考虑居中位置的数据。 - 众数
全体数据中出现次数最多数据就是众数。
Excel操作
均数:average()
中位数:median()
众数:mode()
2.2 离散趋势
离散趋势表明数据个体与数据整体水平离散程度大小。
- 离均差: x − μ x-\mu x−μ
- 总体标准差
σ = [ ( X − μ ) 2 / N ] 1 2 \sigma=[(X-\mu)^2/N]^{\frac {1}{2}} σ=[(X−μ)2/N]21
- 样本标准差
S = [ ( X − X ‾ ) 2 / ( N − 1 ) ] 1 2 S=[(X-\overline{X})^2/(N-1)]^{\frac {1}{2}} S=[(X−X)2/(N−1)]21
注:样本标准差中分母为
N
−
1
N-1
N−1而不是
N
N
N的原因
分母取
N
N
N时,用极大似然估计获得的样本方差的期望时比理想值小,为有偏估计。
- 变异系数
c v = S / X ‾ c_v=S/\overline{X} cv=S/X
变异系数也称为离散系数,是测度数据离散程度的一个归一化量度,主要用于比较不同类型的样本数据的离散程度。
离散系数不需要参照数据的平均值,是一个无量纲量,因此在比较两组量纲不同或均值不同的数据时,可以用变异系数而不是标准差来作为比较的参考。
- 百分位数
如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为:一组数据按数值大小排列。例如,处于p%位置的值称第p百分位数。
- 四分位数
把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值称为四分位数,常用于箱线图的绘制。
四分位数是通过3个分割点将全部数据等分为4部分,其中每部分包含25%的数据。
中间的四分位数就是中位数,处在25%位置上的数值称为下四分位数,处在75%位置上的数值称为上四分位数。
Excel操作
方差:var.s(num1, num2,…)
标准差:stdev.s(num1, num2,…)
变异系数:标准差 / 均值
百分位数:percentile.inc(array, k)
四分位数:quartile.inc(array, k)
- 分布形状
针对某种分布进行进一步的特征描述,常见的是用于正态分布的两个指标:
偏度系数:正态 正偏态 负偏态
峰度系数:正态 平阔峰 尖峭峰
偏度系数
S
=
1
n
∑
i
=
1
n
(
x
i
−
x
‾
)
3
[
1
n
∑
i
=
1
n
(
x
i
−
x
‾
)
2
]
3
2
S=\frac{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^3}{[{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2]}^\frac{3}{2}}
S=[n1∑i=1n(xi−x)2]23n1∑i=1n(xi−x)3
峰度系数
k
=
∑
i
=
1
n
(
x
i
−
x
‾
)
4
(
n
−
1
)
S
4
k=\frac{\sum_{i=1}^n(x_i-\overline{x})^4}{(n-1)S^4}
k=(n−1)S4∑i=1n(xi−x)4
Excel操作
偏度:skew()
峰度:kurt()