最近看了一篇基于时序模型实现UEBA的文章,虽然是个新刊,但是作者团队还是挺牛的,都是业内人士,记录一下学习过程。
原文《User and entity behavior analysis under urban big data》
刊物:ACM/IMS TDS
背景
组织内部人员可以更轻松地执行恶意行为,并可能造成更严重的损害,因为它们位于内部,并且更接近私人数据或私人服务器。53%的组织遇到了来自内部人员的攻击,27%的组织认为来自内部人员的攻击更频繁,90%的组织承认他们无法抵御内部威胁。
内部攻击可能会表现出异常的行为模式,如:1.突然频繁的远程登录,2.突然频繁的可移动硬盘使用,3.突然频繁的敏感文件访问,这些行为偏离了用户的正常行为轨迹,可以被研究人员用来检测内部人员的异常行为。
贡献
1.从四个角度表征用户的日常活动,从三个角度确定用户是否正在执行威胁操作
2.使用几种深度学习算法(长短期记忆(LSTM)和卷积LSTM(convLSTM))计算现实行为与日常行为正常之间的偏差,卷积LSTM是本文首次提出。具体做法是使用LSTM来学习用户行为的序列,并使用ConvLSTM来学习用户行为的特征。
3.使用多层感知器(MLP)根据这些偏差识别异常行为,预测下一个状态
4.在CERT数据集上进行了实验
0、相关研究
1.隐马尔可夫模型(2016),利用HMM对用户的正常行为进行建模,学习正常行为的构成。
2.隐马+DT(2018),提取了序列和数值数据,使用HMM从序列中学习用户的行为习惯,决策树算法(DT)使用数值数据,并利用SOM把HMM和DT组合起来,确定用户是否做了可疑的事情。
3.结合生物特征技术(2015),使用由用户的大脑活动和眼动追踪产生的脑电图(EEG)信号提取特征,训练SVM/KNN/RF分类器。
1、三个角度
1.特征偏差:待检测的特征与模型通过历史记录特征之间的偏差。
2.序列偏差:待检测的动作序列与模型的正常动作序列之间的偏差。
3.角色偏差:待检测的角色特征与同一组中用户角色特征之间的偏差程度。
2、四个特征
基于三个角度提出四个检测特征:动作序列,动作特征,社交特征和角色特征。
- 动作特征可以表明用户在一个时间段内的日常活动的特征,比如登录和登出,连接和断开连接互联网,usb的使用
- 动作序列是基于时序的,首先提取用户在某短时间内的活动记录,然后根据时间排序:
{log on, web, web, web, drive connect, drive disconnect, email, log out}
- 社交特征:主要是说在社交媒体上的行为特征,例如一些用户可能在同事之间的纠纷后做一些恶意行为进行报复,那他在社交媒体上的言论就有可能暗示这一事件(这一特征在本文中只作为理论提出来了,在实验的时候并没有对这个特征进行验证)
- 角色特征可以简单理解为同一个部门为同一个角色,他们具有共同的工作特征,比如人力资源部门的同事会在一天内频繁发送电子邮件,经常浏览内部网站进行招聘,阅读简历文档等操作
3、MBS
1.三个主要模型:操作特征模型、操作序列模型、角色特征模型
2.总体策略:利用历史记录来预测下一个状态,并通过预测和要检测的文件之间的偏差来检测异常行为
3.在工作流的左侧,组织或公司中的工作人员根据其角色(如技术人员、人力资源代表、销售人员、工程师和经理)进行分组,可以通过其日常工作、行为和其他数据从这些组中提取角色特征,例如,人力资源部门的工作人员倾向于在工作时间阅读简历,发送电子邮件,打电话&#