python剔除异常数据_从数据集中剔除异常数据一般用什么数据算法?

异常值,也称离群值,是指样本中的个别值,其数值明显偏离所属样本的绝大部分观测值。

不论什么研究数据,如果数据中存在可能的异常值,均应在分析之前处理,防止异常值带来的干扰,比如异常值会扭曲X和Y之间的相关关系,回归关系等,异常错误的结论;当然其它研究方法基本均会受到异常值的干扰,异常值较多或者异常稍大时,此时会直接扭曲结论。

1异常值处理步骤

针对异常值,常见的步骤有三步:第一步是异常值检测;第二步是异常值判定;第三步是异常值处理。

第一步:异常值检测

异常值的检验有很多种方法,最常见的是图示法,也有使用分析方法进行探索,如下说明。箱盒图:实验研究时经常使用,非常直观的展示出异常数据;

散点图:研究X和Y的关系时,可直观展示查看是否有异常数据;

描述分析:可通过最大最小值等各类指标大致判断数据是否有异常;

其它:比如结合正态分布图,频数分析等判断是否有异常值。

第二步:异常值判定

上述已经说明异常值会带来严重的影响,扭曲数据结论等。那么首先需要设定异常值的标准,然后再对其进行处理。异常值的判定标准并不统一,更多是通过人为标准进行设定,SPSSAU提供以下几类判定规则:缺失数字

小于设定标准的数字

大于设定标准的数字

大于3个标准差图片

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值