https://medium.com/@QuoLab/prioritization-and-propagation-of-malware-sample-analysis-84a3bcd1e6f
这篇文章是这么一个流程,
引出问题:如果对每个二进制进行分析,那么在分析人手比较少的时候,这种会造成资源负担;同时,如果采用先来先分析或者随机选择的方法,这种方式也会造成重复分析的过程。
那么也就是说,我们需要一种手段,能够帮助我们减少人力,最大程度的分析二进制文件。
首先呢, 我们分析这个二进制的目的,就是为了能够得到这个二进制文件的内容,而且得到越多的信息越好;但是,完全不用人工分析是不可能的,必然是要靠机器和人工共同协作的过程。
那么这个时候,就出现了这么一个问题,怎么样尽可能减少人工分析的过程,又能帮助我们得到最多的样本,同时进行标注。
将问题分解,整体流程如下:
- 构建一个相似度图,这个相似度图是以图为基础
- 利用图聚类的方法,将这些点聚类为不同的组
- 从每个组中,挑选一些进行分析,然后给这些组添加上标签
- 利用半监督算法将这些标签在组内传播
关键算法:图聚类算法,选择某种方式挑选代表性的样本,最后利用基于图的半监督算法来完成这个东西
文章已保存为pdf