大家好,先自我介绍一下,我是王睿。之前在Facebook/Instagram担任AI技术负责人,现在DataPipeline任Head of AI,负责研发企业级业务异常检测产品,旨在帮助企业一站式解决业务自动化监控和异常检测问题。今天主要从以下四方面跟大家分享构建该产品的思路和实战。
一、为什么需要人工智能业务异常检测系统
企业会因为业务异常无法得到及时解决而遭受较大的损失,比如某知名互联网企业,将原价为50元的优惠券以18元卖出,导致用户在短时间内大量疯抢,损失惨重。同样,在金融、零售、电商领域因为IT系统的bug或人工原因导致的业务异常也给企业造成了不可估量的经济损失。
然而,在业务异常出现时,企业往往在几天甚至几个星期之后才会发现。以某公司为例,其主营业务为线上借贷,有次放款率突然增加,此时距离出现问题已经过去十几个小时。后果是将钱款借给了许多不具备借贷资质的人,导致回款率和营收大幅下降。
为此,随着企业业务的持续高速增长以及信息化的全面普及,业务人员需要对业务变化有一个全面实时地掌控。这时,IT运维人员会关心服务器和网络的运行;产品负责人会关心用户访问,点击率和用户体验等;业务负责人则关心业务的核心KPI,如销售额。这些指标犹如一个人的心跳、血压、体温,反映企业业务的健康状况。
如何能快速准确地从业务指标中识别异常,发现问题根因,并及时解决对企业而言就显得尤为重要。
目前针对这块,不同企业采取的方法各异。传统的业务监控方法往往是手工生成报表每天查看,对于比较重要且实时性要求较高的指标,会人工设定阈值,当指标跨过阈值时报警。对于已知周期性的指标一般会用类似同比环比的方法。
随着企业业务量和业务种类的不断提升,人工的监控也随之增多。而这种基于人工的方法则会显示出几大不足:
1.大量业务指标没有被实时监控。以电商为例,若只监控总销售额,采用人工方法很容易实现。但是,一旦某些地区或品类的销售额出现异常,只看总销售额指标则很难发现问题。
例如某零售企业,其酸奶的销售额在某地区较之前有所下降,原因是酸奶的库存出现了周转问题。由于一直售卖过期酸奶,导致接到大量用户举报。针对该情况,若只监控总销售额很难发现问题,这时需要监控品类和地区两个维度更细粒度的指标。而监控多个维度的指标,指标监控的数量会成倍增长,显然是人工无法胜任的。