数据陷阱

 

以下是几个常见的数据陷阱:

(1)Anscombe Data

(2)Simpson's Paradox

 1973年,统计学家F.J. Anscombe 构造出了四组奇特的数据。这四组数据中,x值的平均数都是9.0,y值的平均数都是7.5;x值的方差都是10.0,y值的方差都是3.75;它们的相关度都是0.816,线性回归线都是y=3+0.5x。如果不看下数据的散点图,有可能会认为这是4组一样的数据,但实际完全相反。


原始数据


散点图


描述统计



常见的数据陷阱有以下几种: 1. 选择偏差:当我们选择特定的样本或数据集时,可能会导致结果的偏差。这种偏差会使我们无法对整个总体进行准确的推断。 2. 缺失数据数据中缺失的部分可能会导致我们对整个数据集的理解不完整。处理缺失数据时需要小心,以避免对结果产生误导性影响。 3. 样本偏差:样本的选择可能无法代表整个总体,从而导致结果的偏差。这种偏差可能源于采样方法不当或者样本选择的主观性。 4. 测量误差:由于测量方法的不准确性或主观性,数据中存在的误差可能会对结果产生影响。在分析数据时,我们应该了解测量误差并尽量减少其影响。 5. 冗余数据:冗余数据指的是在数据中存在重复或高度相关的信息。这些数据可能会引起过度拟合或增加计算成本,因此需要进行适当的处理。 6. 数据异常值:异常值是指与其他数据明显不同的观测值。这些异常值可能是录入错误、测量误差或真实情况下的异常现象。在分析数据时,我们需要识别和处理异常值,以避免对结果的扭曲。 7. 数据不平衡:当数据集中的某些类别或属性的数量严重倾斜时,会导致模型在处理这些不平衡数据时出现偏差。在这种情况下,我们需要采取适当的方法来处理不平衡问题。 以上是一些常见的数据陷阱,我们在处理和分析数据时需要注意并采取相应的措施来避免或减少它们的影响。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值