Datawhale组队学习【数据挖掘-异常检测-TASK1】

前言

第一次参加DataWhale的组队学习,抱着试一试的态度,希望可以在组队学习的过程中,有所提高,有所成长。海量的数据中,拥有无数的真理与联系,等待我们去发现与挖掘。异常检测是数据挖掘中,很重要的一个方向,许多业务都需要发现系统的异常,十分贴近日常的工作。

TASK01 【异常检测介绍】

TASK01的任务主要包括以下两小节:

  1. 了解异常检测基本概念
  2. 了解异常检测基本方法

下面我来介绍以下,我对这两小节的理解与思考。

⭐了解异常检测基本概念

  • 什么是异常检测?
  • 异常的类别
  • 异常的检测场景
  • 异常检测的难点

异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。

个人认为,使用数据挖掘手段发现异常,这类工作的思路还是比较明确,但是在真实的工作中,定义哪种情况是异常的,是很重要的和不容易判定的。对于复杂的异常检测,需要结合真实的业务需求,去定义哪些是异常,可能会涉及大量的数据分析,特征工程,算法并且需要理解业务,和需求方多沟通。

对于异常的分类,大概可以分为三类:点异常、条件异常、群体异常。

点异常:只有少量的点是异常的。
条件异常:上下文异常,在特定的条件下,发生的异常。比如特定时间下,温度的突变。
群体异常:异常点不是单个,而是多个数据点的序列。

对于异常检测,我们可以使用机器学习的方法进行检测,有监督,无监督,半监督的方法,都可以使用。

异常检测场景:
由于工作原因,平时关心更多的都是安全、风控问题。比如:
账户异常的登录
访问的数量(时间序列基线的变化)
智能运维
网络攻击行为等等

可以通过对多种日志的数据挖掘,发现异常点。

异常检测的难点:
除了讲义介绍的数据量少和噪音两个难点之外,我还认为对于复杂的实体行为,如何定义行为是异常也是一个难点,比如AD登录的突增,url的访问带有的奇怪的参数。可以通过数据挖掘的手段,先发现,再根据其具体的行为,对这种异常进行定义,增加可解释性。

⭐了解异常检测基本方法

  • 基础方法
  • 集成方法

异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。
可以使用正态分布3西格玛的方法和箱形图的方案去发现异常值。

线性模型方法,使用pca的主成分分析,可以有效的降维。
邻近度的方法,聚类,K近邻,密度的度量
集成学习方法,Feature bagging,孤立森林
机器学习方法,各种数模型(gdbt,xgboost)

尾声

第一次组队学习打卡的链接,这次学习的内容,第一节来说,难度不是很大,帮助梳理了异常检测的概念和方法,为后续理论和实战做准备。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值