抽样偏见（Sampling Bias）

大囚长

于 2025-04-16 09:26:28 发布

阅读量502

点赞数 9

分类专栏：机器学习文章标签：人工智能

本文链接：https://blog.csdn.net/Jailman/article/details/147216789

版权

131 篇文章

订阅专栏

抽样偏见（Sampling Bias，也称抽样偏差或抽样偏倚）是统计学和数据分析中的核心概念，指在抽样过程中由于样本选择方法或结构偏离随机性原则，导致样本无法准确代表总体，进而造成研究结果失真的系统性误差。

在这里插入图片描述

非代表性样本
当样本中某些群体的比例与总体实际分布严重不符时，例如在医疗研究中仅收集男性数据却推广到全人群，或用户调研仅覆盖年轻群体而忽略老年人，均会导致结论偏差。
破坏随机性原则
抽样过程若掺杂主观选择（如仅选取方便接触的样本）或依赖存在缺陷的抽样框架（如过时的电话簿），则会引入系统性误差。例如1936年《文学文摘》通过电话簿和汽车登记名单抽样，遗漏了经济困难群体，错误预测总统选举结果。

方法性偏差
- 非随机抽样：如便利抽样（仅调研商场顾客）或自愿参与样本（在线问卷的活跃用户），导致样本群体特征与总体差异显著。
- 抽样框误差：抽样框架不完整（如遗漏农村居民）或包含非目标对象（如重复记录），造成覆盖偏差。
结构性偏差
- 幸存者偏差：仅关注“存活”样本（如成功企业的案例研究），忽略已消失的数据（如失败企业的经验）。
- 时间/空间局限：仅在特定时段或地点采集数据（如工作日白天街头调研，忽略夜班人群）。

社会科学领域
- 用户性格调查若仅选择愿意接受面访的个体，会高估外向型人群特征。
- 犯罪研究仅分析警方档案中存活者的口供，会误判“先动手者更易死亡”的虚假规律。
技术应用场景
- 面部识别系统训练数据若缺乏深肤色人群，会导致识别准确率差异。
- AI模型使用社交媒体文本训练时，可能继承平台用户的年龄或文化偏见。

影响维度
- 结论失真：错误推断总体特征（如低估疾病在特定人群中的发病率）。
- 决策风险：产品设计偏向部分用户（如忽略残障群体需求），或政策制定脱离实际。
规避方法
- 改进抽样设计：采用分层抽样（按年龄、性别分组随机选取）、整群抽样（以社区为单位）提升代表性。
- 增强数据质量：扩大样本容量、多来源采集数据（线上线下结合）、追踪未响应者以减少非响应偏差。
- 技术工具辅助：使用IBM AIF360、Fairlearn等算法工具检测和修正数据偏差。