kitsch0x97-CSDN博客

原创论文学习_Grey-Box Concolic Testing on Binary Code

模糊测试本质上是通过生成的测试用例反复执行被测程序的过程。灰盒模糊测试在反馈循环中进化测试用例，该循环通过称为适应度函数的标准来评估每个测试用例执行被测程序的效果。尽管具体实现存在差异，但大多数灰盒模糊测试工具采用代码覆盖率作为适应度函数。例如，AFL使用分支覆盖率（含一定噪声）来决定下一步应对哪个输入进行模糊测试。尽管基于覆盖率的灰盒模糊测试近期取得成功，但其存在一个主要缺陷：模糊测试过程需要过多不必要的尝试才能找到触发特定分支的测试用例。这主要归因于所用适应度函数的敏感度不足。

2026-01-12 20:23:59 487

原创论文学习_QSYM: A Practical Concolic Execution Engine Tailored for Hybrid Fuzzing

近期提出的混合模糊测试技术通过结合模糊测试与混合执行，旨在解决二者各自的局限性。该混合方法在DARPA网络大挑战等合成基准测试中展现了有效性，但在扩展到复杂真实软件中发现漏洞时仍面临挑战。我们发现现有混合执行引擎的性能瓶颈是制约其超越小规模研究应用的主要限制因素。为突破此限制，我们设计了名为QSYM的高速混合执行引擎来支持混合模糊测试。其核心思想是通过动态二进制翻译将符号化仿真与原生执行紧密集成，从而实现更细粒度、更快速的指令级符号化仿真。

2026-01-12 19:45:42 853

原创论文学习_Full-speed Fuzzing: Reducing Fuzzing Overhead through Coverage-guided Tracing

模糊测试是发现软件缺陷与漏洞最高效的技术之一。其简洁性与可扩展性使其在漏洞挖掘者与软件产业中得到广泛应用。本质上，模糊测试工具通过生成海量测试用例、监测其对目标二进制执行行为的影响，并识别导致漏洞与崩溃的测试用例来运作。模糊测试工具通常按其采用的测试用例生成与执行监控方法进行分类。测试用例生成主要采用两种方式：基于语法规则生成与基于变异生成。

2026-01-12 19:16:46 805

原创论文学习_Breaking Through Binaries: Compiler-quality Instrumentation for Better Binary-only Fuzzing

覆盖引导模糊测试是最有效的软件安全测试技术之一。根据源代码可用性，

2026-01-12 18:42:20 853

原创论文学习_Binary-level Directed Fuzzing for Use-After-Free Vulnerabilities

定向模糊测试通过利用（部分）漏洞堆栈轨迹、补丁或风险操作等额外信息，专注于自动化测试代码的特定部分。其关键应用场景包括漏洞复现、补丁测试和静态分析报告验证。尽管定向模糊测试近年来备受关注，但释放后使用等难以检测的漏洞类型仍未得到有效处理，尤其在二进制层面。我们提出。

2026-01-12 17:21:36 447

原创论文学习_IDFUZZ: Intelligent Directed Grey-box Fuzzing

定向灰盒模糊测试致力于检测程序中的目标代码，广泛应用于补丁测试、候选漏洞确认及已知漏洞复现等多种场景。然而，我们发现现有。

2026-01-12 16:21:56 780

原创模糊测试概述

随着软件规模呈爆炸式增长（如现代浏览器、内核及编译器代码量已逾千万行），软件漏洞已成为网络安全的头号威胁。传统的静态代码分析虽能实现全局覆盖，但受限于误报率高且难以触达深层动态运行逻辑，其局限性日益凸显。模糊测试的雏形源于 Barton Miller 等人的开创性研究 [1]，最初仅依赖于对输入数据的随机盲目变异（Blind Mutation）。由于该阶段缺乏程序内部执行状态的反馈机制，测试过程如同“盲人摸象”，极难触发那些隐藏在复杂分支或严格校验逻辑之后的代码路径。

2026-01-12 15:04:09 338

原创论文学习_Selective Deep Autoencoder for Unsupervised Feature Selection

随着大数据技术的进步，高维数据集的广泛应用已成为常态。虽然将此类数据纳入数据驱动模型有助于提升性能，但往往伴随着计算成本高昂和过拟合风险加剧的问题，这在很大程度上源于特征冗余。因此，识别出信息量较高的特征子集，不仅有助于降低数据维度，也能提升模型的可解释性。论文提出了一种名为“选择性深度自编码器（SDAE）”的新型无监督特征选择框架。该框架旨在不损失信息质量的前提下，有效缩减未标记数据集中所使用的特征数量。其核心思路是从原始特征集中筛选出一个具有代表性的特征子集，使其足以表征整个特征空间并实现数据重建。

2025-11-21 11:24:20 547

原创论文学习_Concrete Autoencoders: Differentiable Feature Selection and Reconstruction

论文提出了一种名为“ConcreteAutoencoder”的新型方法，用于实现全局特征选择。该方法采用端到端的可微分结构，能够有效识别信息量最大的特征子集，并同时训练神经网络根据所选特征重建输入数据。该方法为无监督学习，其编码器采用“Concrete Layer”，解码器则采用标准神经网络结构。在训练过程中，通过逐步降低具体选择层的温度参数，引导模型选择出用户指定数量的离散特征；在测试阶段，所选特征将被输入解码器以重建其余输入特征。

2025-11-21 10:51:30 657

原创工具学习_Bootlin

是一家专注于开源嵌入式 Linux 培训与开发的公司，同时维护着广受欢迎的项目（该项目基于 Buildroot 自动构建并提供稳定、可直接使用的预编译交叉编译工具链，支持 ARM（armv5、armv7、aarch64）、MIPS、PowerPC、RISC-V、x86_64 等多种架构，以及 glibc、musl、uClibc-ng 等多种 C 库。

2025-11-19 11:39:16 281

原创工具学习_Vulrule

是一个开源项目，致力于帮助开发者识别和避免常见的安全漏洞。该项目收集、整理和分析各种编程语言和常用库的安全漏洞模式，提供相应的预防措施和最佳实践。该项目具有四大核心特色：首先，提供全面的漏洞覆盖能力，涵盖多种编程语言及常用库的安全风险检测；其次，每条安全规则均配备实用的指南说明，包含详细解释和示例代码，便于开发人员理解与应用；第三，建立持续更新机制，紧密跟踪最新的安全研究动态和漏洞报告，确保检测规则的时效性；最后，秉承开源共享理念，积极欢迎社区贡献和协作改进，共同推动软件安全生态建设。

2025-11-11 17:32:21 775

原创论文学习_MegaVul: A C/C++ Vulnerability Dataset with Comprehensive Code Representations

我们通过收集通用漏洞与暴露数据库中的相关信息，并结合多个基于Git的代码托管平台中与CVE关联的开源项目，构建了一个名为MegaVul的大规模、综合性C/C++漏洞数据集。具体而言，我们从CVE数据库抓取了所有可获取的漏洞描述信息，并从28个Git类平台中提取了与漏洞相关的代码变更记录。在构建过程中，我们采用先进工具确保所提取代码提交的完整性，并通过四种不同的代码表示形式对数据进行了增强。

2025-11-10 17:01:07 732

原创 A Systematic Literature Review on Detecting Software Vulnerabilities with Large Language Models

随着大型语言模型（LLM）在软件工程领域的广泛应用，利用其进行软件漏洞检测的研究日益受到关注。然而，该领域发展迅速，导致研究格局较为零散，不同研究在系统设计和数据集使用方面存在差异，难以进行有效比较。这种碎片化现象使得学界难以清晰把握当前研究的前沿进展，也难以对相关成果进行系统分类和对比分析。为此，本文对基于LLM的软件漏洞检测研究进行了全面的系统文献综述（SLR）。我们分析了2020年1月至2025年6月期间发表的227项相关研究，从任务定义、输入表示、系统架构和适应技术等维度对其进行分类梳理。

2025-11-10 16:24:11 881

原创论文学习_Precise and Accurate Patch Presence Test for Binaries

打补丁是应对软件漏洞的主要手段，关键在于确保补丁能够及时部署到所有受影响的软件中，然而现实中这一过程往往存在滞后。因此，无论对防御方还是攻击方而言，准确检测软件版本中是否存在安全补丁都至关重要。受安全分析师通常仅检查局部代码区域这一行为的启发，我们提出了FIBER系统，其核心设计正是基于这一观察。FIBER首先对开源安全补丁进行细粒度分析与比对，进而生成能够忠实反映补丁所引入关键语法与语义变化的二进制签名，并利用这些签名在目标二进制文件中进行精准搜索。

2025-11-01 12:10:01 1058

原创论文学习_Towards Practical Binary Code Similarity Detection: Vulnerability Verification via Patch Semant

漏洞是软件安全的主要威胁。实践证明，二进制代码相似性检测方法能够有效检测因代码复用导致的二进制软件漏洞复发。然而，由于该类方法常将已修补函数误判为存在漏洞，且在二进制文件采用不同编译设置时检测效果不佳，其误报率普遍偏高。针对该问题，本文提出名为Robin的方法，通过过滤已修补函数来准确识别复发性漏洞。Robin基于轻量级符号执行技术，求解可触发漏洞相关代码路径的函数输入集合，并通过相同输入执行目标函数，依据其表现出漏洞或已修补的行为特征实现函数过滤。

2025-11-01 11:08:21 657

原创论文学习_Similarity of binaries through re-optimization

我们提出一种可扩展的方法，用于在无调试信息的剥离二进制文件间建立相似性关联。二进制相似性分析的核心挑战在于：需识别经不同编译器、优化级别或目标架构编译的代码之间的共性，同时避免误报。克服该挑战对逆向工程及漏洞代码定位具有重要意义。我们提出的技术兼具可扩展性与精确性，其通过对外部过程片段进行重优化，避免传统重量级语义比对。该方法将二进制程序分解为可比片段，利用编译器优化器将其转换为规范化形式，从而通过轻量语法比较即可识别等价片段。

2025-10-31 18:01:27 320

原创论文学习_Unleashing the power of pseudo-code for binary code similarity analysis

代码相似性分析因其在漏洞检测、恶意软件检测和补丁分析等领域的重要应用而受到广泛关注。由于多数情况下难以获取软件源代码，二进制级代码相似性分析成为研究重点。近年来，许多结合人工智能技术的BCSA研究致力于从二进制函数中提取语义信息，通过汇编代码、中间表示或控制流图等代码表征形式来衡量相似性。然而，由于编译器、目标架构及代码混淆技术的差异，同一源代码编译生成的二进制文件可能呈现显著不同，这成为现有方法获取鲁棒特征的主要障碍。本文提出名为UPPC的解决方案，通过利用二进制函数对应的伪代码作为输入应对这一挑战。

2025-10-31 17:51:46 577

原创论文学习_DeepBinDiff: Learning Program-Wide Code Representations for Binary Diffing

二进制差异分析通过量化两个给定二进制文件之间的差异，并生成细粒度的基本块级匹配结果，已成为支撑多种关键安全分析的基础技术。然而，现有基于程序分析或机器学习的方法普遍存在准确率低、可扩展性差、匹配粒度粗糙或依赖大量标注数据等问题。本文提出一种无监督的程序级代码表示学习技术，通过联合利用代码语义信息与全程序控制流结构生成基本块嵌入表示，并进一步提出k跳贪婪匹配算法，基于生成的块嵌入寻找最优差异分析结果。我们实现了名为DeepBinDiff的原型系统，并通过大量二进制文件验证其效能与效率。

2025-10-31 17:34:27 892

原创论文学习_Binary Code Representation With Well-Balanced Instruction Normalization

本文提出均衡指令规范化方法(WIN)，用于改进二进制代码分析中的语义保留。研究发现二进制指令分布遵循齐普夫定律，函数包含上下文相关语义。基于BERT架构的DeepSemantic框架采用两阶段训练，实验表明WIN方法在代码相似性检测任务中性能显著优于现有技术，平均提升达49.8%和15.8%。该方案有效解决了传统方法因操作数泛化导致的信息丢失问题。

2025-10-31 17:09:43 798

原创论文学习_Similarity Metric Method for Binary Basic Blocks of Cross-Instruction Set Architecture

基本块相似性分析是众多基于机器学习的二进制程序分析方法中的基础技术，其核心在于将基本块的语义信息映射为固定维度的向量，即基本块嵌入。然而，现有基本块嵌入方案存在两大局限性：一是嵌入向量所含语义信息有限，二是仅适用于单一指令集架构（ISA）。为突破这些限制，我们提出一种面向跨ISA的基本块嵌入解决方案，通过神经机器翻译（NMT）模型建立不同指令集架构间的关联。该嵌入模型能够将任意ISA的基本块丰富语义高效映射至固定维度向量。

2025-10-31 16:50:29 855

原创论文学习_ACETest: Automated Constraint Extraction for Testing Deep Learning Operators

深度学习（DL）应用如今已十分普遍，因其能够协助完成多种任务。深度学习库是构建深度学习应用的基础，而深度学习算子作为深度学习库的重要组成部分，负责对多维数据（张量）进行计算。因此，深度学习算子中的缺陷可能带来严重影响。测试是检测深度学习算子缺陷的一种实用方法。为了有效测试深度学习算子，测试用例必须通过输入有效性检查，并能触及算子的核心功能逻辑。因此，提取输入验证约束对于生成高质量测试用例至关重要。现有技术要么依赖人工努力，要么依赖深度学习库API的文档来提取约束。

2025-10-31 11:07:05 1084

原创论文学习_FidelityGPT: Correcting Decompilation Distortions with Retrieval Augmented Generation

反编译是一项关键技术，它将机器代码转换为人类可读的格式，从而在缺乏源代码的情况下促进分析与调试。然而，这一过程受到保真度问题（fidelity issues）的制约，可能严重影响反编译结果的可读性和准确性。现有方法（如变量重命名和结构简化）在一定程度上缓解了这些问题，但通常无法在复杂且具有实际意义的闭源二进制场景中实现充分的检测与修正。为了解决这一问题，我们提出了——一种旨在提升反编译代码准确性与可读性的全新框架。该框架通过系统地检测并修正反编译代码与原始源代码之间的不一致来提高整体保真度。

2025-10-30 11:26:17 911

原创论文学习_LLM4Decompile: Decompiling Binary Code with Large Language Models

反编译旨在将二进制代码转换为高级源代码，但传统工具如Ghidra往往生成可读性和可执行性较差的结果。受大语言模型（LLM）技术进展的启发，我们提出LLM4Decompile——首个且规模最大的开源LLM系列（1.3B至33B），专门用于二进制代码反编译任务。我们优化了LLM训练流程，并推出LLM4Decompile-End模型以实现直接二进制反编译。实验表明，该模型在HumanEval和ExeBench基准测试中的可重执行率显著超越GPT-4o和Ghidra超过100%。

2025-10-29 14:14:58 1149

原创案例研究_CVE-2018-1000517

是 BusyBox wget 中的缓冲区溢出漏洞，导致堆缓冲区溢出。该漏洞影响 commit 8e2174e9bd836e53c8b9c6e00d1bc6e2a718686e 之前的版本，可通过网络连接利用，可能引发任意代码执行或系统崩溃。严重性尚未由 NVD 评估，已在后续提交中修复。代码片段来自 bzip2 的 decompress.c 文件中的 BZ2_decompress 函数，揭示了一个越界写入漏洞，分类为 CVE-2019-12900。

2025-10-25 19:59:26 210

原创论文学习_DSFM: Enhancing Functional Code Clone Detection with Deep Subtree Interactions

函数级代码克隆检测在软件维护中具有重要意义。近年来，深度学习技术被引入，以提升函数级代码克隆检测器的性能。通过将每个代码片段表示为一个包含其程序语义的向量，可以检测出那些在语法上不同但在功能上相似的代码克隆。然而，现有的深度学习方法过于强调代码特征的学习，试图将代码片段中所有可识别的知识都压缩到单一向量表示中。

2025-10-20 20:17:00 605

原创论文学习_Source Code is a Graph, Not a Sequence: A Cross-Lingual Perspective on Code Clone Detection

代码克隆检测具有挑战性，因为源代码可以用不同的语言、领域和风格编写。在本文中，我们提出，源代码本质上是图而非序列，基于图的方法比基于序列的方法更适合进行代码克隆检测。我们比较了两种最先进模型的性能：基于序列的模型CodeBERT和基于图的模型CodeGraphBCB和PoolC。我们展示了CodeGraph在这两个数据集上均优于CodeBERT，尤其是在跨语言代码克隆的检测上。根据我们所知，这是首个证明在识别用不同语言编写的相似代码时，使用图结构比使用序列更有效的研究。

2025-10-20 19:33:15 939

原创论文学习_Asteria: Deep Learning-based AST-Encoding for Cross-platform Binary Code Similarity Detection

二进制代码相似性检测（Binary Code Similarity Detection, BCSD）是一项支撑多种安全应用的基础技术，如漏洞搜索、补丁分析和恶意软件检测。随着物联网（IoT）设备中关键漏洞数量的不断增加，跨架构进行漏洞相似代码检测的需求日益迫切。由于IoT硬件架构和软件平台种类繁多，相似性检测必须能够准确捕获代码片段的语义等价关系。然而，现有方法在语义相似性建模方面仍存在不足。我们注意到，函数的抽象语法树（Abstract Syntax Tree, AST）蕴含丰富的语义信息。

2025-10-20 16:26:34 629

原创论文学习_PalmTree: Learning an Assembly Language Model for Instruction Embedding

深度学习在众多二进制分析任务中已展现出其优势，例如函数边界检测、二进制代码搜索、函数原型推断和值集分析等。在将深度学习应用于二进制分析任务时，我们需要确定应向神经网络模型输入何种数据。更具体地说，需要解决如何将一条指令表示为固定长度向量的问题。自动学习指令表示的想法颇具吸引力，但现有方案未能捕捉到反汇编代码的独有特征。这些方案忽略了指令内部复杂的结构，并且主要依赖控制流信息，而控制流中的上下文信息存在噪声且易受编译器优化影响。

2025-10-19 11:36:45 889

原创论文学习_jTrans: jump-aware transformer for binary code similarity detection

二进制代码相似性检测（BCSD）在漏洞检测、软件组件分析和逆向工程等多个领域具有重要应用。最近的研究表明，深度神经网络（DNN）能够理解二进制代码的指令或控制流图（CFG），并支持BCSD。在本研究中，我们提出了一种新型的基于Transformer的方法，称为jTrans，用于学习二进制代码的表示。这是首个将二进制代码的控制流信息嵌入到基于Transformer的语言模型中的解决方案，通过使用一种新颖的跳转感知表示法以及重新设计的预训练任务。

2025-10-19 11:12:09 730

原创论文学习_Improving cross-platform binary analysis using representation learning via graph alignment

跨平台二进制分析需要在不同平台之间共享二进制表示，以便进行特定的分析。然而，现有技术存在一些不足之处，要么是（i）针对单一平台，产生的平台间不对齐的嵌入，要么是（ii）未能捕捉反汇编二进制中丰富的上下文信息。我们提出了一种新型的基于深度学习的方法——XBA，旨在解决上述问题。为此，我们首先将二进制文件抽象为类型化图，称为二进制反汇编图（BDG），该图编码了反汇编二进制中不同实体的控制流和其他丰富的上下文信息，包括基本块、外部函数调用以及引用的字符串常量。

2025-10-19 10:31:03 691

原创论文学习_Practical Binary Code Similarity Detection with BERT-based Transferable Similarity Learning

二进制代码相似性检测（BCSD）是许多应用的基础，包括软件抄袭、恶意软件分类和已知漏洞发现。然而，由于缺乏源代码中的语义信息，推断二进制代码的上下文意义是具有挑战性的。最近的进展通过利用深度学习架构的优势，能够更好地理解底层代码语义，并结合Siamese架构在BCSD中发挥优势。本文提出了BinShot，一个基于BERT的相似性学习架构，具有很好的可转移性，能够有效进行BCSD。我们通过一-shot学习（少样本学习的特例）来解决检测代码相似性的问题。

2025-10-19 10:10:22 1146

原创论文学习_BBDetector: A Precise and Scalable Third-Party Library Detection in Binary Executables with Fin

第三方库（TPL）的复用可能引入易受攻击或恶意的代码，暴露软件潜在风险。因此，当发现或报告出问题的可复用组件时，必须识别第三方依赖关系并立即采取纠正措施以修复关键漏洞。然而，大多数现有方法仅依赖于语法特征，这导致识别准确度较低，并且在代码混淆技术的影响下检测性能大幅下降。此外，一些基于语义的方法面临效率问题。为了解决这些问题，我们提出并实现了一种更精确且可扩展的TPL检测方法——BBDetector。除了语法特征外，我们还考虑了丰富的函数级语义特征，并为每个函数形成特征向量。

2025-10-18 18:26:19 719

原创论文学习_VulHawk: Cross-architecture Vulnerability Detection with Entropy-based Binary Code Search

代码重用在软件开发中广泛存在，但它也带来了大量的漏洞，威胁着软件安全。不幸的是，随着物联网（IoT）的发展和部署，代码重用的危害被放大。二进制代码搜索是一种有效的方式来发现这些隐藏的漏洞。然而，面对由不同编译器、不同优化级别、不同架构编译的IoT固件镜像，现有方法难以适应这些复杂的场景。在本文中，我们提出了一种新颖的中间表示函数模型，它是一个架构无关的跨架构二进制代码搜索模型。该模型将二进制代码提升为微代码，并通过补充隐式操作数和修剪冗余指令来保留二进制函数的主要语义。

2025-10-18 18:17:59 780

原创论文学习_Binary Function Clone Search in the Presence of Code Obfuscation and Optimization over Multi-CP

二进制函数克隆搜索是一个重要的能力，支持多个应用和用例，包括逆向工程、补丁安全检查、威胁分析、漏洞函数检测等。因此，设计和实现解决二进制可执行文件和固件镜像中函数相似性问题的技术，已经引起了广泛关注。尽管现有的方法在指纹识别函数克隆方面具有优势，但当目标二进制代码经历了显著的代码转换（如混淆、编译器优化和/或交叉编译到多个CPU架构）时，这些方法存在局限性。

2025-10-18 17:42:09 771

原创论文学习_sem2vec : Semantics-Aware Assembly Tracelet Embedding

二进制代码相似性是许多安全和软件工程应用的基础。近年来的研究利用深度神经网络（DNN）来学习汇编函数的数值向量表示（即嵌入表示），从而在数值空间中实现相似性分析。然而，现有的基于DNN的技术通常仅捕获汇编代码的语法层、控制流层或数据流层信息，这些信息粒度过于粗糙，无法充分表示程序功能。这些方法在面对诸如编译器优化和代码混淆等复杂场景时，往往缺乏足够的鲁棒性。我们提出了sem2vec，一种从语义中学习的二进制代码嵌入框架。

2025-10-18 17:27:20 973

原创论文学习_Asteria-Pro: Enhancing Deep Learning-based Binary Code Similarity Detection by Incorporating Do

广泛的代码重用使得漏洞在各种固件中传播。有效且高效地检测这些漏洞代码迫在眉睫。通过测量代码相似性，基于AI的二进制代码相似性检测被应用于大规模漏洞代码检测。现有研究提出了多种功能特征，以捕捉相似性检测中的共同性。然而，由于物联网硬件架构的多样性引起的显著代码语法变化，减少了二进制代码相似性检测的准确性。在我们之前的研究和工具Asteria中，我们采用了TreeLSTM网络来总结函数语义作为函数共同性，评估结果显示出较好的性能。然而，在大规模固件漏洞搜索中，由于时间成本过高和精度不足，仍存在效用问题。

2025-10-18 16:59:32 754

原创论文学习_kTrans: Knowledge-Aware Transformer for Binary Code Embedding

二进制代码嵌入（BCE）在多种逆向工程任务中具有重要应用，如二进制代码相似性检测、类型恢复、控制流恢复和数据流分析。近期研究表明，Transformer模型能够理解二进制代码的语义，以支持下游任务。然而，现有模型忽略了汇编语言的先验知识。本文提出了一种基于Transformer的新方法，名为kTrans，用于生成知识感知的二进制代码嵌入。通过将显式知识作为额外输入提供给Transformer，并通过一种新颖的预训练任务融合隐式知识，kTrans为将领域知识融入Transformer框架提供了新的视角。

2025-10-18 15:44:32 754

原创 FASER: Binary Code Similarity Search through the use of Intermediate Representations

能够识别跨架构软件中感兴趣的函数，在进行恶意软件分析、软件供应链安全或漏洞研究时都是非常有用的。跨架构二进制代码相似性搜索已经在许多研究中得到探索，并使用了多种不同的数据来源来实现其目标。通常使用的数据来源包括从二进制文件中派生出的常见结构，如函数控制流图、二进制级调用图、反汇编过程的输出或动态分析方法的输出。其中一个较少受到关注的数据来源是二进制中间表示。二进制中间表示具有两个有趣的特性：它们本质上是跨架构的，并且明确地编码了函数的语义，以支持后续的使用。

2025-10-18 11:47:37 479

原创论文学习_Cross-Inlining Binary Function Similarity Detection

标题: Cross-Inlining Binary Function Similarity Detection (Ang Jia,2024) 作者: Ang Jia, Ming Fan, Xi Xu, Wuxia Jin, Haijun Wang, Ting Liu期刊: ICSE'24二进制函数相似性检测在广泛的安全应用中发挥着重要作用。现有的研究通常假设查询函数和目标函数具有相同的语义，并比较它们的完整语义以获得相似性。然而，论文发现函数映射更加复杂，尤其是在发生函数内联时。本文将系统地研究跨内联的二进

2025-10-18 11:23:42 851

原创论文学习_FIN: Boosting binary code embedding by normalizing function inlinings

二进制代码相似性检测（BCSD）对于识别不同程序中相似的代码片段至关重要，无论其源语言、编译选项或底层架构如何。这在代码剽窃检测、恶意软件分析和漏洞发现等领域中起着重要作用。然而，由于编译器优化（如函数内联），BCSD面临着重大挑战，这些优化会改变二进制结构。现有的基于规则的函数控制流图（CFG）扩展策略由于在识别内联调用位置时精度和召回率较低，成功有限。在本研究中，论文对函数内联进行了详细的研究，并提出了一种基于AI的解决方案来扩展控制流图，为BCSD方法提供改进。

2025-10-18 10:19:36 1271

空空如也

空空如也