1、属性值:首先要看取值是否在正常范围内,如人的身高,如果取值为100m那肯定是异常;同时也要看数据背景,在NBA中1.3m的身高也很有可能是异常值。
2、相关性:以人的年龄和体重为例,3岁和150斤都是正常值,但若这两个值出现在一个人身上那肯定也是异常值。以车的速度为例10KM/h和120KM/h都是正常值,如果这两个是相邻两秒的速度值就不正常了。
3、基于模型的判断方法:异常值的模型拟合度肯定差。
4、基于相似度的方法:常用的方法是基于k紧邻的相似度计算。
5、基于密度的方法:常用的密度衡量指标是相对密度。
6、基于聚类的方法:典型的就是两步聚类。