到底什么是幸存者偏差?有哪些例子?

眼见不一定为实。

一、快速了解

幸存者偏差就是指当获得的信息只能来自幸存者的时候,会让我们看到的情况和实际情况出现偏差,得出错误的结论,因为非幸存者已经无法发声了。

例如,老师上课点名的时候说“没来的举手”,然后发现没人举手于是得出都到了的错误结论。

二、扩展知识

1. 起源

1941年第二次世界大战中,美国统计学教授沃德(Abraham Wald)分析了战后返回营地的轰炸机数据发现:机翼是最多被击中的位置,机尾则是最少被击中的位置。

针对这个现象,一般人包括军方指挥官都认为“应该加强机翼的防护,因为这是最多被击中的位置”,而沃德教授的结论则相反——“应该强化机尾的防护”。因为机翼被击中还能回来说明并不致命,而没有机尾被击中的飞机回来说明这些飞机已经失事了。后面就总结出了“幸存者偏差”一词。

2. 常见“幸存者偏差”例子

  • 人们看到一些从小不好好读书的取得了成功,宣扬读书不重要,却看不到更多的读书差的人的庸庸碌碌一事无成;
  • 产品调研可以收集到用户的一些反馈建议,但是真正致命的问题不一定能采集不到,因为遇到这些致命问题的用户可能已经抛弃这个产品了;
  • 你看到网红、主播们简单轻松光鲜亮丽,觉得做主播很简单,却不知道在那些出名的网红身后还有千千万万的没成功的人,只是你看不到他们发声;

3.如何避免“以偏概全”

  • 前向推导的时候全面分析
  • 复盘的时候尽可能多的搜集信息
  • 大胆假设哪些原因会导致“非幸存者”

 

### Python 数据分析实际案例 #### 使用 Pandas 进行电影评分数据分析 在具体的数据分析项目中,Pandas 是一种强大的工具用于数据操作和清洗。下面是一个关于如何加载并初步处理 MovieLens 电影评分数据集的实例。 ```python import pandas as pd # 定义列名列表 rating_col = ['user_id', 'movie_id', 'rating', 'timestamp'] # 加载 ratings 文件到 DataFrame 中 ratings = pd.read_table('datasets/movielens/ratings.dat', header=None, sep='::', names=rating_col, engine='python') ``` 这段代码展示了如何通过 `pd.read_table` 函数来读取特定格式的文件,并指定分隔符和其他参数以适应输入文件结构[^2]。 #### 处理缺失值与异常检测 当面对真实世界中的不完美数据时,了解如何处理像 None 和 NaN 这样的特殊值非常重要。这些代表不同类型的空缺或未定义数值,在某些情况下可能会影响计算结果准确性。对于这类问题通常会采取删除含有缺失值得记录或是填充合理估计值的方法来进行预处理[^4]。 #### 可视化分析二手房市场趋势 另一个有趣的实践方向是对房地产市场的研究。例如,可以收集有关城市内各个区域房价的信息,之后运用 PyEcharts 库创建交互式的图表展示房屋价格随时间变化的趋势图、地理分布热力地图等可视化成果。这有助于揭示隐藏于大量交易记录背后的城市规划影响因素和发展模式特点[^3]。 #### 统计学概念的应用——幸存者偏差解释 除了技术层面的知识外,理解统计原理同样不可或缺。“幸存者偏差”的例子很好地说明了这一点:如果只关注那些成功预测比赛胜负的动物(如章鱼保罗),而忽略了其他失败的情况,则可能会得出错误结论认为这种行为具有普遍意义。因此,在设计实验方案之初就要考虑到潜在的选择性偏误风险[^5]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值