总结:聚类的方法将内部威胁异常行为从正常行为中分离出来(Canopy、K-means)
先前方法基础上的创新。建造树结构分析的数据分析方法来更好(速度、可拓展性、一致性)的为自动化编码器方法进行内部威胁检测;针对LogCluster方法提取特征步骤中的会话窗口形成行为序列依赖日志中标志符的局限性,设计基于滑动窗口划分日志序列增加LogCluster方法的适用性。
一.一种用于异常检测的自动日志分析方法
1.论文来源
作者:葛志辉,谭悦,李陶深,叶进
CCF B类 小型微型计算机系统 2022年3月 第三期
2.problem
针对现代大型系统中系统日志的异常检测问题,提出了一种基于自动日志分析的异常检测方法。
3.novelty
贡献点:
1)提出引入信息熵来提取日志中的信息量,基于信息熵理论将原始日志集表征为多维加权信息点。
2)提出预聚类下细化分析与多视角异常提取相结合的分阶段多技术的检测方式。
3)提出多视角下异常日志的提取方法,对全局和局部视角下对日志间的内部关联进行分析,提出显性异常和隐形异常对象的定义。
解决的问题:
基于层次聚类的LogCluster异常检测方法,基于增强型DBSCAN聚类的方法,都使用了单一的技术方法进行分析,随着日志数据的复杂性增大,可能会出现检测效率低或者是准确度不够的情况。
4.intuition
引入信息熵提取日志信息量;基于Canopy预聚类过程提取子集交叠数据,缩小计算范围;利用谱聚类细化分析,结合预聚类结果优化初始化问题;关联不同视角下的日志分析,提出显性与隐性异常对象的定义,基于稀疏簇质心的分析和异常度的计算,识别异常日志。
在不同阶段结合不同的技术来解决单一技术不能满足检测效率和准确度平衡的问题。
5.experiment
数据集:Hadoop分布式文件系统日志的公开数据集
实验过程:将无结构化的文本数据进行日志解析,得到结构化的日志文件;用信息熵表征日志所携带的信息量;通过Canopy进行预聚类,定义中心点和区域半径,将数据集快速聚类成若干可重叠的子集,提取Canopy子集相互交叠的部分;根据数据构造相似矩阵并计算得到拉普拉斯矩阵,特征分解得到特征向量,后使用K-Means算法对特征向量聚类;(Canopy预聚类结果对谱聚类初始值选取进行优化,如生成的聚类中心作为聚类初始中心点)交叠部分细化到每一簇中,分成密集簇和稀疏簇;提取多视角异常对象,异常行为会聚类成小规模的稀疏簇,对稀疏簇进行处理(质心为异常特征向量,基于局部异常因子的异常度指标计算异常度)
二.基于自动编码器的内部威胁检测技术
1.论文来源
作者:孙小双 ,王 宇
CCF C类 计算机工程与设计 2022年10月 第43卷 第10期
2.problem
提出一种基于树结构分析的数据分析方法和基于自动编码器的内部威胁检测方法
3.novelty
通过层层属性分析,形成树形结构,建立的树节点可以用特征向量表示,分析速度快,具有良好的拓展性,为所有用户提供了行为特征的一致性表示。
4.intuition
行为记录按照设备-活动-属性的树结构进行分析,得到基于树结构的行为特征图,编码为特征向量,考虑不同节点间存在时间或行为的关联关系,对不同节点进行组合获取新的特征向量。
5.experiment
数据集:CERT数据集
将自动编码器方法与PCA等其他异常检测方法进行对比实验
三.改进的基于日志聚类的异常检测方法
1.论文来源
作者: 冯士龙,台宪青,马治杰
CCF C类 计算机工程与设计 2020年4月 第41卷第4期
2.problem
通过使用滑动窗口的方式将日志划分为日志序列,将划分后的日志序列向量化来进行特征提取,扩展原始方法(LogCluster)的应用范围。
3.novelty
创新点:主要是针对LogCluster方法的创新,后者基于会话窗口,而会话窗口基于标识符,所以只能检测带有标记符的日志,而利用基于时间戳的滑动窗口的sw-LogCluster可以突破这个限制。
4.intuition
LogCluster的基本流程:日志解析、特征提取、日志聚类、代表性序列日志提取、重复性检查
特征提取部分为日志序列划分和日志矢量化两部分,SW- LogCluster是采用滑动窗口的方式进行日志序列划分,采用合适的窗口大小以及步长对日志进行划分,将同一滑动窗口时间段内产生的日志划分为一组日志序列,生成事件计数向量。
5.experiment
数据集:HDFS数据集(带标志符) BGL(Blue Gene/L 不带标志符)
通过带标志符的HDFS数据集和不带标志符的BGL数据集进行对比实验,验证滑动窗口属性对于SW- LogCluster方法的影响,证明SW- LogCluster方法也可以很好的对于不带标志符的数据集能达到好的异常检测的效果。
四.内部威胁检测中用户属性画像方法与应用
1.论文来源
作者:钟雅,郭渊博,刘春辉,李涛
CCF B类 计算机科学 2020年第3期
2.problem
把研究重点从发现诱因转移到相似用户的聚类和监管上,以组织内的用户作为研究主体,提出了内部威胁检测中用户属性画像方法。
3.novelty
解决的问题:
没有体现群体监管思想;未利用员工属性特征;未提出内在特征建模方法;未给出有效的度量标准。
贡献点:将用户画像技术用于内部威胁检测,综合考虑并解决上述所有问题。
4.intuition
5.experiment
数据集:CERT
实验过程:对CERT中的psychometric.csv文件进行预处理,计算用户人格相似度