11 单变量分析

11 单变量分析

标签: 机器学习与数据挖掘
(此篇的R代码对应本系列的《12 R语言手册(第五站 单变量分析)》)

1.统计推理与数据挖掘

  从数据挖掘器的角度考虑。我们面对一个可能并不熟悉的数据集。对于该数据集我们已经完成了数据理解和数据准备阶段并且使用探索性数据分析收集了一些描述性信息。下一步,我们将要执行单变量估计和预测。常见的执行估计和预测的工具为统计推理。统计推理包含一些方法,它们基于包含在样本中的信息,对总体特征进行估计和假设检验。总体指的是在一个特定研究中感兴趣的所有元素的集合(人、物和数据)。
  点估计指的是使用统计量的单个已知值来估计相关的总体参数。统计量的观测值称为点估计。
在这里插入图片描述

2.均值的置信区间估计

  总体参数的置信区间估计由点估计产生的数值区间构成,连同相关的置信水平指定了区间包含参数的概率。大多数置信区间具有以下通用形式:
p o i n t    e s t i m a t e ( 点 估 计 ) ± m a r g i n    o f   e r r o r ( 误 差 范 围 ) point\,\,estimate(点估计)\pm margin\,\,of\,error(误差范围) pointestimate±marginoferror
  误差范围是对区间估计精确度的度量。误差范围越小表明精确度越大。例如,总体均值的 t-区间:
$\bar{x}\pm t_{\frac{a}{2}}\left( \frac{s}{\sqrt{n}} \right) $
  可以看到,样本均值 x ˉ \bar{x} xˉ为点估计,而$t_{\frac{a}{2}}\left( \frac{s}{\sqrt{n}} \right) 就 是 它 的 误 差 范 围 。 此 外 , 就是它的误差范围。此外, \frac{s}{\sqrt{n}} 代 表 样 本 均 值 的 标 准 误 差 , 当 样 本 容 量 较 大 或 样 本 可 变 性 较 小 时 , 代表样本均值的标准误差,当样本容量较大或样本可变性较小时, \frac{s}{\sqrt{n}}KaTeX parse error: Expected 'EOF', got '&' at position 5: 较小。 &̲emsp; 对于总体…E 为 为 E=t_{\frac{a}{2}}\left( \frac{s}{\sqrt{n}} \right) , 可 以 解 释 为 : 我 们 有 95 ,可以解释为:我们有95%的把握在 95E$误差范围内估计u。
  例如,上述所有客户的客户服务电话的误差范围为0.045个服务电话,可以被理解为:我们有95%的把握在0.045的误差范围内估计所有客户的客户服务电话均值。

3. 减小样本误差

  只要误差范围越小,我们估计的精确度就越大,而只要误差范围越小,样本误差就越小,结果就越精确,从公式可以得之:

  • t a 2 t_{\frac{a}{2}} t2a取决于置信水平和样本容量。
  • 样本标准偏差 s s s,作为数据的特征,可能不会发生变化。
  • n n n,用本容量。

因此,可以使用以下两种方法来减小误差范围:

  • 通过减小置信水平,即减小 t a 2 t_{\frac{a}{2}} t2a的取值,因此可以减小 E E E。不推荐。
  • 通过增大样本容量。推荐。要想在减小误差范围的同时保持置信水平不变,增大样本容量是唯一的方法。

4. 比例的置信区间估计

样本比例 p p p 对整体比例 π \pi π 的估计:
p ± Z a 2 p ⋅ ( 1 − p ) n p\pm Z_{\frac{a}{2}}\sqrt{\frac{p\cdot \left( 1-p \right)}{n}} p±Z2anp(1p)
  其中, p p p为对 π \pi π的点估计, Z a 2 p ⋅ ( 1 − p ) n Z_{\frac{a}{2}}\sqrt{\frac{p\cdot \left( 1-p \right)}{n}} Z2anp(1p) 代表误差范围。 Z a 2 Z_{\frac{a}{2}} Z2a依赖于置信水平,它的值可以查询正态分布表而得知。
  对此公式,我们的文字解释是:“我们有 ( 1 − α ) (1-\alpha) (1α)(如:95%)的把握估计 π \pi π E E E 的范围内。”

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值