数据预处理异常值处理_处理数据集中的异常值

数据预处理异常值处理

表中的内容(Table of Content)

  1. Definition of Outliers

    离群值的定义
  2. Different types of Outliers

    不同类型的离群值
  3. Ways to deal with Outliers

    处理离群值的方法
  4. Optional Content about SD & Variance

    关于SD和差异的可选内容
  5. Standard Deviation Method

    标准偏差法
  6. Interquartile Range Method(IQR)

    四分位距法(IQR)
  7. Automatic Outliers detection

    自动异常值检测

离群值的定义(Definition of Outliers)

An outlier is an unlikely observation in a dataset. It is rare, or distinct, or does not fit in some way.

离群值是数据集中不太可能观察到的。 它很少见或与众不同,或者在某种程度上不适合。

不同类型的离群值: (Different types of Outliers:)

Outliers can have many causes, such as:

离群值可能有多种原因,例如:

  • Measurement or Manual error

    测量或手动错误
  • Data generation flaw

    数据生成缺陷
  • Data corruption

    资料损坏
  • True outlier observation (E.g. Sachin tendulkar/Virat Kohli in Cricket)

    真正的异常值观察(例如,板球中的Sachin tentenkar / Virat Kohli)

There is no precise way to identify an outlier, domain expert needs to interpret the raw data and decide whether a value is an outlier or not.

没有精确的方法来识别异常值,领域专家需要解释原始数据并决定是否 值是否为异常值。

处理离群值的方法 (Ways to deal with Outliers)

  • Standard Deviation Method

    标准偏差法
  • Interquartile Range Method (IQR)

    四分位间距法(IQR)
  • Automatic Outlier Detection

    自动异常值检测

关于SD和差异的可选内容(Optional Content about SD& Variance)

Variance: In probability theory and statistics, variance is the expectation of the squared deviation of a random variable from its mean.Informally, it measures how far a set of numbers is spread out from their average value.

方差:在概率论和统计学中,方差是对随机变量与其均值平方差的期望,非正式地,它衡量一组数字与平均值之间的距离。

Image for post
My photography :)
我的摄影:)

S² = sample varianceX = the value of the one observationμ = the mean value of all observationsN = the number of observations

S²=样本方差X =一次观测的值μ=所有观测的平均值N =观测数量

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值