引言:异常值处理是我们做数据分析之前重要的环节,并且异常值的去除需要进行充分且合理的解释。但是,目前的文献中普遍缺乏针对剔除异常值的必要的解释和讨论(这也是将要介绍论文中提到的问题)。
- 标题
Best-Practice Recommendations for Defining, Identifying, and Handling Outliers
(中文翻译)定义、识别和处理异常值的最佳实践建议
- 原文链接
https://doi.org/10.1177/1094428112470848
- 发表期刊
Organizational Research Methods
JCR学科类别: MANAGEMENT - SSCI (Q1, 9.5)
- 摘要
异常值(即明显偏离其他数据点的数据点)的存在是组织科学研究中最持久和普遍的方法论挑战之一。我们提供的证据表明,定义、识别和处理异常值的不同方法会改变实质性研究结论。然后,我们报告了对涉及异常值主题的46篇方法论来源(即期刊文章、书籍章节和书籍)以及提及异常值问题的232篇组织科学期刊文章的文献综述结果。我们的文献综述发现:(1)14种独特且相互排斥的异常值定义、39种异常值识别技术以及20种处理异常值的不同方法;(2)不同方法来源中异常值的定义、识别和处理方式不一致;(3)实质性研究人员处理异常值的方式混乱且缺乏透明度。我们提供包括决策树在内的指南,研究人员可以遵循这些指南来定义、识别和处理错误、有趣和有影响力(即模型拟合和预测)的异常值。尽管我们的重点是回归、结构方程建模和多级建模,但我们的总体框架构成了其他数据分析方法中有关异常值的研究议程的基础。作者以及期刊编辑和审稿人可以使用我们的建议来提高组织科学研究中异常值处理实践的一致性和透明度。
PS:有趣异常值、有影响力异常值都是直接英译中的,并没有特意去核对。
- 内容(简要列一下内容,大家可以自行去查看论文)
1.异常值主题文献综述结果
(1)异常值处理方法论
表1 基于对方法论和实质性组织科学来源的审查的异常值定义。
表2 基于方法论和实质性组织科学来源审查的异常值识别技术。
表3 基于方法论和实质性组织科学来源审查的异常值处理技术。
(2)异常值处理论文:对232篇涉及异常值的实质性文章的回顾还发现了当前组织科学中处理异常值的三个具体缺陷。
在一些特定的研究领域,研究异常值,而不是将它们视为在进行“更干净”的数据分析之前必须消除的麻烦,可能会带来重要的理论进步。
2.就如何定义、识别和处理异常值做出决策
论文提出的处理异常值的框架基本上是:运用简单的异常值处理方法(例如boxplot四分位法),发现并删除错误异常值;然后是对有趣异常值的处理;最后是对有影响力异常值的处理。(这一部分很有意思,大家还是去看原文比较好)