11.14论文速读

最新推荐文章于 2024-08-09 15:40:46 发布

落花芝盖

最新推荐文章于 2024-08-09 15:40:46 发布

阅读量1.4k

点赞数 15

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/qq_46942933/article/details/127822639

版权

该文综述了日志分析在异常检测和内部威胁识别中的应用，包括基于信息熵的预处理、Canopy与K-means聚类、树结构分析的自动编码器方法以及滑动窗口改进的LogCluster。这些方法旨在提高检测速度、可拓展性和准确性，尤其是在处理复杂日志数据时。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

总结：聚类的方法将内部威胁异常行为从正常行为中分离出来（Canopy、K-means）

先前方法基础上的创新。建造树结构分析的数据分析方法来更好（速度、可拓展性、一致性）的为自动化编码器方法进行内部威胁检测；针对LogCluster方法提取特征步骤中的会话窗口形成行为序列依赖日志中标志符的局限性，设计基于滑动窗口划分日志序列增加LogCluster方法的适用性。

一.一种用于异常检测的自动日志分析方法

1.论文来源

作者：葛志辉，谭悦，李陶深，叶进

CCF B类小型微型计算机系统 2022年3月第三期

2.problem

针对现代大型系统中系统日志的异常检测问题，提出了一种基于自动日志分析的异常检测方法。

3.novelty

贡献点：

1）提出引入信息熵来提取日志中的信息量，基于信息熵理论将原始日志集表征为多维加权信息点。

2）提出预聚类下细化分析与多视角异常提取相结合的分阶段多技术的检测方式。

3）提出多视角下异常日志的提取方法，对全局和局部视角下对日志间的内部关联进行分析，提出显性异常和隐形异常对象的定义。

解决的问题：

基于层次聚类的LogCluster异常检测方法，基于增强型DBSCAN聚类的方法，都使用了单一的技术方法进行分析，随着日志数据的复杂性增大，可能会出现检测效率低或者是准确度不够的情况。

4.intuition

引入信息熵提取日志信息量；基于Canopy预聚类过程提取子集交叠数据，缩小计算范围；利用谱聚类细化分析，结合预聚类结果优化初始化问题；关联不同视角下的日志分析，提出显性与隐性异常对象的定义，基于稀疏簇质心的分析和异常度的计算，识别异常日志。

在不同阶段结合不同的技术来解决单一技术不能满足检测效率和准确度平衡的问题。

5.experiment

数据集：Hadoop分布式文件系统日志的公开数据集

实验过程：将无结构化的文本数据进行日志解析，得到结构化的日志文件；用信息熵表征日志所携带的信息量；通过Canopy进行预聚类，定义中心点和区域半径，将数据集快速聚类成若干可重叠的子集，提取Canopy子集相互交叠的部分；根据数据构造相似矩阵并计算得到拉普拉斯矩阵，特征分解得到特征向量，后使用K-Means算法对特征向量聚类；（Canopy预聚类结果对谱聚类初始值选取进行优化，如生成的聚类中心作为聚类初始中心点）交叠部分细化到每一簇中，分成密集簇和稀疏簇；提取多视角异常对象，异常行为会聚类成小规模的稀疏簇，对稀疏簇进行处理（质心为异常特征向量，基于局部异常因子的异常度指标计算异常度）

二.基于自动编码器的内部威胁检测技术

1.论文来源

作者：孙小双 ,王宇

CCF C类计算机工程与设计 2022年10月第43卷第10期

2.problem

提出一种基于树结构分析的数据分析方法和基于自动编码器的内部威胁检测方法

3.novelty

通过层层属性分析,形成树形结构,建立的树节点可以用特征向量表示,分析速度快，具有良好的拓展性，为所有用户提供了行为特征的一致性表示。

4.intuition