11 单变量分析
标签: 机器学习与数据挖掘
(此篇的R代码对应本系列的《12 R语言手册(第五站 单变量分析)》)
1.统计推理与数据挖掘
从数据挖掘器的角度考虑。我们面对一个可能并不熟悉的数据集。对于该数据集我们已经完成了数据理解和数据准备阶段并且使用探索性数据分析收集了一些描述性信息。下一步,我们将要执行单变量估计和预测。常见的执行估计和预测的工具为统计推理。统计推理包含一些方法,它们基于包含在样本中的信息,对总体特征进行估计和假设检验。总体指的是在一个特定研究中感兴趣的所有元素的集合(人、物和数据)。
点估计指的是使用统计量的单个已知值来估计相关的总体参数。统计量的观测值称为点估计。
2.均值的置信区间估计
总体参数的置信区间估计由点估计产生的数值区间构成,连同相关的置信水平指定了区间包含参数的概率。大多数置信区间具有以下通用形式:
p
o
i
n
t
  
e
s
t
i
m
a
t
e
(
点
估
计
)
±
m
a
r
g
i
n
  
o
f
 
e
r
r
o
r
(
误
差
范
围
)
point\,\,estimate(点估计)\pm margin\,\,of\,error(误差范围)
pointestimate(点估计)±marginoferror(误差范围)
误差范围是对区间估计精确度的度量。误差范围越小表明精确度越大。例如,总体均值的 t-区间:
$\bar{x}\pm t_{\frac{a}{2}}\left( \frac{s}{\sqrt{n}} \right) $
可以看到,样本均值
x
ˉ
\bar{x}
xˉ为点估计,而$t_{\frac{a}{2}}\left( \frac{s}{\sqrt{n}} \right)
就
是
它
的
误
差
范
围
。
此
外
,
就是它的误差范围。此外,
就是它的误差范围。此外,\frac{s}{\sqrt{n}}
代
表
样
本
均
值
的
标
准
误
差
,
当
样
本
容
量
较
大
或
样
本
可
变
性
较
小
时
,
代表样本均值的标准误差,当样本容量较大或样本可变性较小时,
代表样本均值的标准误差,当样本容量较大或样本可变性较小时,\frac{s}{\sqrt{n}}KaTeX parse error: Expected 'EOF', got '&' at position 5: 较小。 &̲emsp; 对于总体…E
为
为
为E=t_{\frac{a}{2}}\left( \frac{s}{\sqrt{n}} \right)
,
可
以
解
释
为
:
我
们
有
95
,可以解释为:我们有95%的把握在
,可以解释为:我们有95E$误差范围内估计u。
例如,上述所有客户的客户服务电话的误差范围为0.045个服务电话,可以被理解为:我们有95%的把握在0.045的误差范围内估计所有客户的客户服务电话均值。
3. 减小样本误差
只要误差范围越小,我们估计的精确度就越大,而只要误差范围越小,样本误差就越小,结果就越精确,从公式可以得之:
- t a 2 t_{\frac{a}{2}} t2a取决于置信水平和样本容量。
- 样本标准偏差 s s s,作为数据的特征,可能不会发生变化。
- n n n,用本容量。
因此,可以使用以下两种方法来减小误差范围:
- 通过减小置信水平,即减小 t a 2 t_{\frac{a}{2}} t2a的取值,因此可以减小 E E E。不推荐。
- 通过增大样本容量。推荐。要想在减小误差范围的同时保持置信水平不变,增大样本容量是唯一的方法。
4. 比例的置信区间估计
样本比例
p
p
p 对整体比例
π
\pi
π 的估计:
p
±
Z
a
2
p
⋅
(
1
−
p
)
n
p\pm Z_{\frac{a}{2}}\sqrt{\frac{p\cdot \left( 1-p \right)}{n}}
p±Z2anp⋅(1−p)
其中,
p
p
p为对
π
\pi
π的点估计,
Z
a
2
p
⋅
(
1
−
p
)
n
Z_{\frac{a}{2}}\sqrt{\frac{p\cdot \left( 1-p \right)}{n}}
Z2anp⋅(1−p)代表误差范围。
Z
a
2
Z_{\frac{a}{2}}
Z2a依赖于置信水平,它的值可以查询正态分布表而得知。
对此公式,我们的文字解释是:“我们有
(
1
−
α
)
(1-\alpha)
(1−α)(如:95%)的把握估计
π
\pi
π 在
E
E
E 的范围内。”