论文标题:Order Matters: Semantic-Aware Neural Networks for Binary Code Similarity Detection
原文链接:https://ojs.aaai.org/index.php/AAAI/article/view/5466
说明:在读研究生为方便记忆梳理学习,手敲论文笔记,概括论文的主要思想和内容。
背景
- 二进制代码相似性检测,其目的是在不访问源代码的情况下检测相似的二进制函数,是计算机安全的一项基本任务。
- 利用二进制代码的流程图来构建代码的语义的提取。
- 使用NLP模型提取二进制代码语义信息,tokens=word,块=句子。
- 本文贡献:
- 提出通用框架学习CFG的图嵌入,可以学习语义信息,结构信息和顺序信息。
- 语义感知建模使用BERT对带有掩码1语言模型任务和相邻节点预测的token和块的嵌入进行预训练。
- 顺序感知建模中,节点顺序有用,在邻接矩阵上采用CNN模型提取CFG的节点顺序信息。