以下是几个常见的数据陷阱:
(1)Anscombe Data
(2)Simpson's Paradox
1973年,统计学家F.J. Anscombe 构造出了四组奇特的数据。这四组数据中,x值的平均数都是9.0,y值的平均数都是7.5;x值的方差都是10.0,y值的方差都是3.75;它们的相关度都是0.816,线性回归线都是y=3+0.5x。如果不看下数据的散点图,有可能会认为这是4组一样的数据,但实际完全相反。
原始数据
散点图
描述统计
以下是几个常见的数据陷阱:
(1)Anscombe Data
(2)Simpson's Paradox
1973年,统计学家F.J. Anscombe 构造出了四组奇特的数据。这四组数据中,x值的平均数都是9.0,y值的平均数都是7.5;x值的方差都是10.0,y值的方差都是3.75;它们的相关度都是0.816,线性回归线都是y=3+0.5x。如果不看下数据的散点图,有可能会认为这是4组一样的数据,但实际完全相反。
原始数据
散点图
描述统计