文:Soheil Esmaeilzadeh, Negin Salajegheh, Amir Ziai, Jeff Boote
翻译:陈超
校对:赵茹萱
本文约4500字,建议阅读12分钟
本文基于预期用户的流媒体行为及其与设备交互来定义流媒体特征,对非预期流媒体行为进行系统性概述,并用一套基于模型和数据驱动的异常检测策略来识别它们。
引言
流媒体服务覆盖了全世界上百万的用户。这些服务使用户可以在较广的设备范围(包括智能手机、笔记本电脑和电视)上收看或下载内容。然而,该服务也存在一定限制,例如活跃设备数、信息流数量以及下载条目数。大量的平台用户也构成了一个包括内容诈骗、账户盗用以及服务条款滥用在内的庞大特殊受攻击面。大规模和实时检测欺诈和滥用行为仍非常具有挑战性。
数据分析和机器学习技术能够很好地用于保障大规模流媒体平台安全。即使这些技术可以将安全方案与服务规模相协调,但仍有一些挑战需要克服,例如要求标签化的数据样本,定义有效特征以及发现合适的算法。在本文中,通过流媒体安全专家的知识和经验,我们基于预期用户的流媒体行为和他们与设备交互来定义特征。我们对非预期流媒体行为进行了系统性概述,并用一套基于模型和数据驱动的异常检测策略来识别它们。
一、异常检测背景
异常(也称为异常值)被定义为数据样本中不满足特定环境中人们一致认可的正常行为的特定模式(或事件)。
有两种主要的异常检测方法,即(1)基于规则;(2)基于模型。基于规则的异常检测方法是用领域专家的知识和经验建立的一系列规则。领域专家将给定情境下异常事件的特征进行界定,并开发一套基于规则的功能识别异常事件。由于这种依赖,这种部署和基于规则的异常检测方法的使用会随着规模而变得非常昂贵和耗时。此外,基于规则的异常检测方法需要专家们持续的监督,以保持基本规则集的更新,识别新的威胁。但对专家的依赖也会使基于规则的方法在范围和效力上产生偏见或受到限制。
另一方面,基于模型的异常检测方法中,模型在一种自动化的行为中建立并用于检测异常事件。虽然基于模型的异常检测方法更能够量化并且适用于实时分析,它们也高度依赖于内容特定(通常标签化的)数据的可用性。基于模型的异常检测方法,一般来说,有三种类别,(1)有监督的(2)半监督的以及(3)无监督的。给定标签化数据集,有监督的异常检测模型可以识别异常和正常事件。在半监督异常检测模型中,仅有正常案例需要训练。这些模型学习正常样本的分布,并利用这些知识在推断时识别异常样本。无监督异常检测模型不需要任何标签化数据样本。但是,想要可靠地评估它们的功效并不容易。
图 1. 流媒体平台图示:(a)说明可用于流媒体的设备类型(b)指定一组身份验证和授权系统,如许可证和清单服务器,用于提供加密内容以及解密密钥和清单,以及(c)显示流媒体服务提供者(作为数字内容提供者的代理实体),与其他两个组件交互。
二、