如何自动化识别异常数据?并智能预警!

今天和大家聊聊常见的场景:异常数据的识别,以及预警相关功能的产品化设计。

01

场景概述

我们在做数据分析的时候,有一个重要的环节,就是发现目前运行数据的异常,然后基于异常寻找原因、提出意见和建议。

如果是人工判断异常数据的话,往往通过恰当的可视化图形就能很好地发现,比如下面数据走势的异常:

ccdca856ba6f9e37e60ded966c94c481.png

或者下面的数据关系的异常,通过回归曲线很容易发现右下角的异常点。

0d451b2cdc51ac9bb4bac56cfb7e9bfb.png

但是对于机器而言,想要识别异常数据,就比较麻烦了。这就是咱们今天将重点展开讨论的内容:如何通过系统化的规则或者算法,识别异常数据。

由于数据的类型多种多样,我们针对不同数据类型分别展开。

02


时序异常数据识别

时间序列相关的异常判定,应该是我们最常见的异常识别情景。尤其是在数据产品中,我们关注的大部分内容都是和时间序列有关系。

54d89f781c552f22587e4b547bc9eaa5.png

大家可以仔细回想一下你平时看到的数据监控看板等等,无论形态如何,基本都涉及了时间维度。但凡涉及时间维度,那么异常的识别都是基于时间来识别的,且识别的是最新一段时间是否异常(用最新数据鉴定历史数据异常并没有任何业务意义)。

了解了上面的内容,下面我们聊聊都有哪些时序异常数据的识别方法。

(1)基于固定数值

这个比较好理解,就是直接按照固定的数值进行异常判定。逻辑简单、容易实现与理解。

8075a6920c73585c8f45e16aa55db53b.png

比如上图中,我们设定固定数值是[3800-5600],在这个区间范围内的数据,我们认为是正常数据;低于或者高于该区间的数据,认为是异常数据。

固定数值判断异常的方法,核心在于如何取合理区间的上下限。如果有明确的业务红线,可以将业务红线设为上下限;如果没有业务限制,可以使用分位数进行取值,比如历史5%-95%分位认为是正常的。

对于一个发展比较稳定业务而言,设定固定的绝对数值是没啥问题的。但是对于一个快速发展期的业务,很明显,固定数值并不适用。

b4e6f4c094824db249b414f26c6c08bd.png

随着时间的变化,合理的区间也相应发生了变化。这种情况不适合用固定数值进行异常判定,而是需要相对值。

(2)基于相对数值

上面讲到了固定数值方法的缺点。因此,我们考虑相对数值的方法。提到相对值,主要就是同比和环比(关于同比和环比可参考历史文章)

6fbdac1c0dc812161ea4f2f138ab74c0.png

由于同比通常的定义指的是与去年同期比较,因此针对单天,我们往往是与上周进行对比。如此,上周的数值就是基准值,再增加一个波动区间范围即可。比如上周二的新增用户数200,波动范围设定[-10%,10%],那么本周二如果新增用户数在180-220则认为是正常的;超出该范围则判定异常。

该方法也有明显的缺点。如果上周二就是一个异常值(假设数值异常低),而本周二数据是恢复正常了。那么根据相对值得判定逻辑,很容易把本周二判定为「异常高」。这是点对点对比的缺点。

(3)基于统计分布

如何能避免单个异常点对后续判断的影响呢?这里就可以基于统计分布进行规则建立。

215d78f40c03f637a80b906e37765611.png

这里我们可以采取 均值±标准差×3 的方式。这里的均值可以采取当天之前一段时间的均值,比如90天、30天;标准差也选取相应时间段的标准差;倍数可以基于情况设置。

由于均值是一段时间内的均值,不是某一个具体点。因此通过这种方式,能消除异常数据对于后续的异常判定。

(4)基于时序模型

最后,还可以基于时间序列模型进行异常判定。

在统计模型中,有一类模型是专门针对时间序列进行建模的,用以预测未来一段时间的数据走势。我们可以建立相应的ARMA模型等,基于实际值和预测值的差异,判定是否异常。

0dd61c3cd991e83dc8e1c26ce4bd12b1.png

关于时间序列模型,我们这里就不展开了,后续会专门针对时间序列统计模型详细分享相关基础知识。

03


预警功能产品化设计

最后,我们一起看看预警功能的产品设计,这里主要以神策为例,看看预警功能的设计思路。

(1)预警设置

神策将预警功能和事件分析进行了结合,在做事件分析相关功能时,可以直接添加「预警」,进行预警配置。

68a3df7e72820e97950e9ec593c641ea.png

下面是点击「预警」后的配置界面:

65f67523ad7dedc366f68c922c1aeb3a.png

配置基本信息中包括了规则名称、监控指标、维度等;预警设置中包括监控时间粒度、监控时间、预警方式、触发规则、通知方式等。

(2)预警触发规则

预警配置中,最核心的一步就是进行预警规则的设置了。神策支持了两种预警方式:智能预警和自定义预警。

50cc51cd5e4a682947d65edf7ca2a259.png

这里的智能预警并未明示具体的逻辑,我猜主要就是基于统计分布和时序模型进行的所谓智能预警。而自定义预警主要包括了对比特定值(即固定值)以及历史某期(即相对值)进行预警规则设置。

当然,自定义预警的阈值是用户自行填写的,没有给出提示。

(3)预警通知

预警的通知配置,也是整个预警功能中必不可少的一部分。这里主要支持三种方式:系统通知、企业群通知、邮件通知。

3b39ddd0cb0bd5a050f86c4b369b6dad.png

关于时序预警相关的方法,以及产品化的介绍,就分享这些。这里强调一点,虽然数据看板的时序数据占了大多数,但是仍然有非时序的数据呈现。

以上。

6fa7c0c09f60381d9088b75876d581fb.gif

 
 
●适婚农村青年找对象有多难?
●品牌知名度分析
  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
人工智能(Artificial Intelligence,AI)在数据安全保护方面发挥着重要的作用。以下是人工智能数据安全保护相关的几个方面: 1. 数据安全分析:人工智能可以应用于数据安全分析,通过对大量数据进行深度学习和模式识别,帮助识别和预测潜在的安全威胁和漏洞。例如,使用机器学习算法可以分析网络流量,检测异常行为和入侵攻击。 2. 智能身份验证:人工智能可以应用于身份验证领域,通过人脸识别、指纹识别等技术来确保身份的真实性和合法性。这有助于防止未经授权的访问和数据泄露。 3. 异常检测和预警人工智能可以通过建立模型来监测和分析系统中的异常行为,及时发现并预警潜在的数据安全问题。例如,通过机器学习算法可以分析用户行为模式,检测到异常操作或未经授权的访问。 4. 数据加密和隐私保护:人工智能可以应用于数据加密和隐私保护领域,提供更高级别的数据安全保护。例如,使用深度学习算法可以实现对敏感数据的加密和解密,保护数据在传输和存储过程中的安全性。 5. 自动化安全响应:人工智能可以自动化安全响应过程,通过建立智能的安全决策系统,快速检测、识别和应对各类安全事件和威胁。这有助于及时应对和阻止潜在的数据安全问题。 总之,人工智能数据安全保护方面具有广泛的应用前景,可以提高数据安全的效率和准确性,帮助组织更好地保护敏感数据和防范安全威胁。然而,也需要注意人工智能本身的安全性和隐私保护,确保人工智能系统不成为攻击者获取数据的入口。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值