离群值是什么意思_对黑产异常检测之聚类检测离群点

说起异常检测。可能比较熟悉又不知道其真正含义。

什么是异常呢?

发现你连续7天在世界不同地点(异常点)发现你买了东西你支付宝微信的钱没有减少(这个是异常交易)发现你经常加好友且删除率高无交流频率(这个是异常用户)

9037ecf1a23f918fea1752302378bed4.png

那么什么是异常检测呢?

在数据挖掘中异常检测就是对不匹配预期模式或数据集中其他项目的项目、事件或观测值的识别。通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。异常也被称为离群值、新奇、噪声、偏差和例外。

有三大类异常检测方法。在假设数据集中大多数实例都是正常的前提下,

无监督异常检测方法能通过寻找与其他数据最不匹配的实例来检测出未标记测试数据的异常。

监督式异常检测方法需要一个已经被标记“正常”与“异常”的数据集,并涉及到训练分类器(与许多其他的统计分类问题的关键区别是异常检测的内在不均衡性)。

半监督式异常检测方法根据一个给定的正常训练数据集创建一个表示正常行为的模型,然后检测由学习模型生成的测试实例的可能性

先说说离群值。就是基于聚类分析的孤立点,

894d3c45b7d55897a72289b6f632f507.png

物以类聚大家都了解,上面小红点一个人在那么他是不是就是异常呢。

fda8e3677ae71d7e2c23d53e5c370cf5.png

利用聚类检测离群点的方法是丢弃原理其他簇的小簇。这种方法可以与任何聚类技术一起使用,但是需要最小簇大小和小簇与其他簇之间距离的阈值,通常,该过程可以简化为丢弃小于某个最小尺寸的所有簇。

说人话呢,一个国家是不是有很省 ,一个省有很多市,一个市有很多县市,每个市县下面有镇,镇下面村,组,户,然后就是成员我们身份证就是标识,户就是一个小簇,当然我们说的簇一个账号存在很多簇里面。那么如果有些人他是没有身份证的这个就是异常,

那么小簇的人有没有有没有黑衣人呢。肯定有吧  

通过网络中的中心度和相似度计算,可以进行基本的团伙欺诈检测规则抽取。比如在网络中中心度超过某一阈值或者和其他节点的相似度超过某一阈值,即会触发预警。但是通过对每一个样本进行遍历的比对相似度,是一种非常低效的做法,实际中更常使用的是社区发现算法。

而每一个节点的二度联系人和三度联系人,可以作为用户异常后的潜在对象。由于用户异常后,无法进行适当的施压,通过网络输出多度联系人,成为了当前互联,全模型的主要手段。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值