- 博客(170)
- 收藏
- 关注
原创 论文学习_Selective Deep Autoencoder for Unsupervised Feature Selection
随着大数据技术的进步,高维数据集的广泛应用已成为常态。虽然将此类数据纳入数据驱动模型有助于提升性能,但往往伴随着计算成本高昂和过拟合风险加剧的问题,这在很大程度上源于特征冗余。因此,识别出信息量较高的特征子集,不仅有助于降低数据维度,也能提升模型的可解释性。论文提出了一种名为“选择性深度自编码器(SDAE)”的新型无监督特征选择框架。该框架旨在不损失信息质量的前提下,有效缩减未标记数据集中所使用的特征数量。其核心思路是从原始特征集中筛选出一个具有代表性的特征子集,使其足以表征整个特征空间并实现数据重建。
2025-11-21 11:24:20
537
原创 论文学习_Concrete Autoencoders: Differentiable Feature Selection and Reconstruction
论文提出了一种名为“ConcreteAutoencoder”的新型方法,用于实现全局特征选择。该方法采用端到端的可微分结构,能够有效识别信息量最大的特征子集,并同时训练神经网络根据所选特征重建输入数据。该方法为无监督学习,其编码器采用“Concrete Layer”,解码器则采用标准神经网络结构。在训练过程中,通过逐步降低具体选择层的温度参数,引导模型选择出用户指定数量的离散特征;在测试阶段,所选特征将被输入解码器以重建其余输入特征。
2025-11-21 10:51:30
643
原创 工具学习_Bootlin
是一家专注于开源嵌入式 Linux 培训与开发的公司,同时维护着广受欢迎的项目(该项目基于 Buildroot 自动构建并提供稳定、可直接使用的预编译交叉编译工具链,支持 ARM(armv5、armv7、aarch64)、MIPS、PowerPC、RISC-V、x86_64 等多种架构,以及 glibc、musl、uClibc-ng 等多种 C 库。
2025-11-19 11:39:16
265
原创 工具学习_Vulrule
是一个开源项目,致力于帮助开发者识别和避免常见的安全漏洞。该项目收集、整理和分析各种编程语言和常用库的安全漏洞模式,提供相应的预防措施和最佳实践。该项目具有四大核心特色:首先,提供全面的漏洞覆盖能力,涵盖多种编程语言及常用库的安全风险检测;其次,每条安全规则均配备实用的指南说明,包含详细解释和示例代码,便于开发人员理解与应用;第三,建立持续更新机制,紧密跟踪最新的安全研究动态和漏洞报告,确保检测规则的时效性;最后,秉承开源共享理念,积极欢迎社区贡献和协作改进,共同推动软件安全生态建设。
2025-11-11 17:32:21
768
原创 论文学习_MegaVul: A C/C++ Vulnerability Dataset with Comprehensive Code Representations
我们通过收集通用漏洞与暴露数据库中的相关信息,并结合多个基于Git的代码托管平台中与CVE关联的开源项目,构建了一个名为MegaVul的大规模、综合性C/C++漏洞数据集。具体而言,我们从CVE数据库抓取了所有可获取的漏洞描述信息,并从28个Git类平台中提取了与漏洞相关的代码变更记录。在构建过程中,我们采用先进工具确保所提取代码提交的完整性,并通过四种不同的代码表示形式对数据进行了增强。
2025-11-10 17:01:07
711
原创 A Systematic Literature Review on Detecting Software Vulnerabilities with Large Language Models
随着大型语言模型(LLM)在软件工程领域的广泛应用,利用其进行软件漏洞检测的研究日益受到关注。然而,该领域发展迅速,导致研究格局较为零散,不同研究在系统设计和数据集使用方面存在差异,难以进行有效比较。这种碎片化现象使得学界难以清晰把握当前研究的前沿进展,也难以对相关成果进行系统分类和对比分析。为此,本文对基于LLM的软件漏洞检测研究进行了全面的系统文献综述(SLR)。我们分析了2020年1月至2025年6月期间发表的227项相关研究,从任务定义、输入表示、系统架构和适应技术等维度对其进行分类梳理。
2025-11-10 16:24:11
861
原创 论文学习_Precise and Accurate Patch Presence Test for Binaries
打补丁是应对软件漏洞的主要手段,关键在于确保补丁能够及时部署到所有受影响的软件中,然而现实中这一过程往往存在滞后。因此,无论对防御方还是攻击方而言,准确检测软件版本中是否存在安全补丁都至关重要。受安全分析师通常仅检查局部代码区域这一行为的启发,我们提出了FIBER系统,其核心设计正是基于这一观察。FIBER首先对开源安全补丁进行细粒度分析与比对,进而生成能够忠实反映补丁所引入关键语法与语义变化的二进制签名,并利用这些签名在目标二进制文件中进行精准搜索。
2025-11-01 12:10:01
1046
原创 论文学习_Towards Practical Binary Code Similarity Detection: Vulnerability Verification via Patch Semant
漏洞是软件安全的主要威胁。实践证明,二进制代码相似性检测方法能够有效检测因代码复用导致的二进制软件漏洞复发。然而,由于该类方法常将已修补函数误判为存在漏洞,且在二进制文件采用不同编译设置时检测效果不佳,其误报率普遍偏高。针对该问题,本文提出名为Robin的方法,通过过滤已修补函数来准确识别复发性漏洞。Robin基于轻量级符号执行技术,求解可触发漏洞相关代码路径的函数输入集合,并通过相同输入执行目标函数,依据其表现出漏洞或已修补的行为特征实现函数过滤。
2025-11-01 11:08:21
652
原创 论文学习_Similarity of binaries through re-optimization
我们提出一种可扩展的方法,用于在无调试信息的剥离二进制文件间建立相似性关联。二进制相似性分析的核心挑战在于:需识别经不同编译器、优化级别或目标架构编译的代码之间的共性,同时避免误报。克服该挑战对逆向工程及漏洞代码定位具有重要意义。我们提出的技术兼具可扩展性与精确性,其通过对外部过程片段进行重优化,避免传统重量级语义比对。该方法将二进制程序分解为可比片段,利用编译器优化器将其转换为规范化形式,从而通过轻量语法比较即可识别等价片段。
2025-10-31 18:01:27
316
原创 论文学习_Unleashing the power of pseudo-code for binary code similarity analysis
代码相似性分析因其在漏洞检测、恶意软件检测和补丁分析等领域的重要应用而受到广泛关注。由于多数情况下难以获取软件源代码,二进制级代码相似性分析成为研究重点。近年来,许多结合人工智能技术的BCSA研究致力于从二进制函数中提取语义信息,通过汇编代码、中间表示或控制流图等代码表征形式来衡量相似性。然而,由于编译器、目标架构及代码混淆技术的差异,同一源代码编译生成的二进制文件可能呈现显著不同,这成为现有方法获取鲁棒特征的主要障碍。本文提出名为UPPC的解决方案,通过利用二进制函数对应的伪代码作为输入应对这一挑战。
2025-10-31 17:51:46
569
原创 论文学习_DeepBinDiff: Learning Program-Wide Code Representations for Binary Diffing
二进制差异分析通过量化两个给定二进制文件之间的差异,并生成细粒度的基本块级匹配结果,已成为支撑多种关键安全分析的基础技术。然而,现有基于程序分析或机器学习的方法普遍存在准确率低、可扩展性差、匹配粒度粗糙或依赖大量标注数据等问题。本文提出一种无监督的程序级代码表示学习技术,通过联合利用代码语义信息与全程序控制流结构生成基本块嵌入表示,并进一步提出k跳贪婪匹配算法,基于生成的块嵌入寻找最优差异分析结果。我们实现了名为DeepBinDiff的原型系统,并通过大量二进制文件验证其效能与效率。
2025-10-31 17:34:27
884
原创 论文学习_Binary Code Representation With Well-Balanced Instruction Normalization
本文提出均衡指令规范化方法(WIN),用于改进二进制代码分析中的语义保留。研究发现二进制指令分布遵循齐普夫定律,函数包含上下文相关语义。基于BERT架构的DeepSemantic框架采用两阶段训练,实验表明WIN方法在代码相似性检测任务中性能显著优于现有技术,平均提升达49.8%和15.8%。该方案有效解决了传统方法因操作数泛化导致的信息丢失问题。
2025-10-31 17:09:43
793
原创 论文学习_Similarity Metric Method for Binary Basic Blocks of Cross-Instruction Set Architecture
基本块相似性分析是众多基于机器学习的二进制程序分析方法中的基础技术,其核心在于将基本块的语义信息映射为固定维度的向量,即基本块嵌入。然而,现有基本块嵌入方案存在两大局限性:一是嵌入向量所含语义信息有限,二是仅适用于单一指令集架构(ISA)。为突破这些限制,我们提出一种面向跨ISA的基本块嵌入解决方案,通过神经机器翻译(NMT)模型建立不同指令集架构间的关联。该嵌入模型能够将任意ISA的基本块丰富语义高效映射至固定维度向量。
2025-10-31 16:50:29
851
原创 论文学习_ACETest: Automated Constraint Extraction for Testing Deep Learning Operators
深度学习(DL)应用如今已十分普遍,因其能够协助完成多种任务。深度学习库是构建深度学习应用的基础,而深度学习算子作为深度学习库的重要组成部分,负责对多维数据(张量)进行计算。因此,深度学习算子中的缺陷可能带来严重影响。测试是检测深度学习算子缺陷的一种实用方法。为了有效测试深度学习算子,测试用例必须通过输入有效性检查,并能触及算子的核心功能逻辑。因此,提取输入验证约束对于生成高质量测试用例至关重要。现有技术要么依赖人工努力,要么依赖深度学习库API的文档来提取约束。
2025-10-31 11:07:05
1077
原创 论文学习_FidelityGPT: Correcting Decompilation Distortions with Retrieval Augmented Generation
反编译是一项关键技术,它将机器代码转换为人类可读的格式,从而在缺乏源代码的情况下促进分析与调试。然而,这一过程受到保真度问题(fidelity issues)的制约,可能严重影响反编译结果的可读性和准确性。现有方法(如变量重命名和结构简化)在一定程度上缓解了这些问题,但通常无法在复杂且具有实际意义的闭源二进制场景中实现充分的检测与修正。为了解决这一问题,我们提出了——一种旨在提升反编译代码准确性与可读性的全新框架。该框架通过系统地检测并修正反编译代码与原始源代码之间的不一致来提高整体保真度。
2025-10-30 11:26:17
896
原创 论文学习_LLM4Decompile: Decompiling Binary Code with Large Language Models
反编译旨在将二进制代码转换为高级源代码,但传统工具如Ghidra往往生成可读性和可执行性较差的结果。受大语言模型(LLM)技术进展的启发,我们提出LLM4Decompile——首个且规模最大的开源LLM系列(1.3B至33B),专门用于二进制代码反编译任务。我们优化了LLM训练流程,并推出LLM4Decompile-End模型以实现直接二进制反编译。实验表明,该模型在HumanEval和ExeBench基准测试中的可重执行率显著超越GPT-4o和Ghidra超过100%。
2025-10-29 14:14:58
1135
原创 案例研究_CVE-2018-1000517
是 BusyBox wget 中的缓冲区溢出漏洞,导致堆缓冲区溢出。该漏洞影响 commit 8e2174e9bd836e53c8b9c6e00d1bc6e2a718686e 之前的版本,可通过网络连接利用,可能引发任意代码执行或系统崩溃。严重性尚未由 NVD 评估,已在后续提交中修复。代码片段来自 bzip2 的 decompress.c 文件中的 BZ2_decompress 函数,揭示了一个越界写入漏洞,分类为 CVE-2019-12900。
2025-10-25 19:59:26
193
原创 论文学习_DSFM: Enhancing Functional Code Clone Detection with Deep Subtree Interactions
函数级代码克隆检测在软件维护中具有重要意义。近年来,深度学习技术被引入,以提升函数级代码克隆检测器的性能。通过将每个代码片段表示为一个包含其程序语义的向量,可以检测出那些在语法上不同但在功能上相似的代码克隆。然而,现有的深度学习方法过于强调代码特征的学习,试图将代码片段中所有可识别的知识都压缩到单一向量表示中。
2025-10-20 20:17:00
592
原创 论文学习_Source Code is a Graph, Not a Sequence: A Cross-Lingual Perspective on Code Clone Detection
代码克隆检测具有挑战性,因为源代码可以用不同的语言、领域和风格编写。在本文中,我们提出,源代码本质上是图而非序列,基于图的方法比基于序列的方法更适合进行代码克隆检测。我们比较了两种最先进模型的性能:基于序列的模型CodeBERT和基于图的模型CodeGraphBCB和PoolC。我们展示了CodeGraph在这两个数据集上均优于CodeBERT,尤其是在跨语言代码克隆的检测上。根据我们所知,这是首个证明在识别用不同语言编写的相似代码时,使用图结构比使用序列更有效的研究。
2025-10-20 19:33:15
933
原创 论文学习_Asteria: Deep Learning-based AST-Encoding for Cross-platform Binary Code Similarity Detection
二进制代码相似性检测(Binary Code Similarity Detection, BCSD)是一项支撑多种安全应用的基础技术,如漏洞搜索、补丁分析和恶意软件检测。随着物联网(IoT)设备中关键漏洞数量的不断增加,跨架构进行漏洞相似代码检测的需求日益迫切。由于IoT硬件架构和软件平台种类繁多,相似性检测必须能够准确捕获代码片段的语义等价关系。然而,现有方法在语义相似性建模方面仍存在不足。我们注意到,函数的抽象语法树(Abstract Syntax Tree, AST)蕴含丰富的语义信息。
2025-10-20 16:26:34
618
原创 论文学习_PalmTree: Learning an Assembly Language Model for Instruction Embedding
深度学习在众多二进制分析任务中已展现出其优势,例如函数边界检测、二进制代码搜索、函数原型推断和值集分析等。在将深度学习应用于二进制分析任务时,我们需要确定应向神经网络模型输入何种数据。更具体地说,需要解决如何将一条指令表示为固定长度向量的问题。自动学习指令表示的想法颇具吸引力,但现有方案未能捕捉到反汇编代码的独有特征。这些方案忽略了指令内部复杂的结构,并且主要依赖控制流信息,而控制流中的上下文信息存在噪声且易受编译器优化影响。
2025-10-19 11:36:45
882
原创 论文学习_jTrans: jump-aware transformer for binary code similarity detection
二进制代码相似性检测(BCSD)在漏洞检测、软件组件分析和逆向工程等多个领域具有重要应用。最近的研究表明,深度神经网络(DNN)能够理解二进制代码的指令或控制流图(CFG),并支持BCSD。在本研究中,我们提出了一种新型的基于Transformer的方法,称为jTrans,用于学习二进制代码的表示。这是首个将二进制代码的控制流信息嵌入到基于Transformer的语言模型中的解决方案,通过使用一种新颖的跳转感知表示法以及重新设计的预训练任务。
2025-10-19 11:12:09
716
原创 论文学习_Improving cross-platform binary analysis using representation learning via graph alignment
跨平台二进制分析需要在不同平台之间共享二进制表示,以便进行特定的分析。然而,现有技术存在一些不足之处,要么是(i)针对单一平台,产生的平台间不对齐的嵌入,要么是(ii)未能捕捉反汇编二进制中丰富的上下文信息。我们提出了一种新型的基于深度学习的方法——XBA,旨在解决上述问题。为此,我们首先将二进制文件抽象为类型化图,称为二进制反汇编图(BDG),该图编码了反汇编二进制中不同实体的控制流和其他丰富的上下文信息,包括基本块、外部函数调用以及引用的字符串常量。
2025-10-19 10:31:03
680
原创 论文学习_Practical Binary Code Similarity Detection with BERT-based Transferable Similarity Learning
二进制代码相似性检测(BCSD)是许多应用的基础,包括软件抄袭、恶意软件分类和已知漏洞发现。然而,由于缺乏源代码中的语义信息,推断二进制代码的上下文意义是具有挑战性的。最近的进展通过利用深度学习架构的优势,能够更好地理解底层代码语义,并结合Siamese架构在BCSD中发挥优势。本文提出了BinShot,一个基于BERT的相似性学习架构,具有很好的可转移性,能够有效进行BCSD。我们通过一-shot学习(少样本学习的特例)来解决检测代码相似性的问题。
2025-10-19 10:10:22
1134
原创 论文学习_BBDetector: A Precise and Scalable Third-Party Library Detection in Binary Executables with Fin
第三方库(TPL)的复用可能引入易受攻击或恶意的代码,暴露软件潜在风险。因此,当发现或报告出问题的可复用组件时,必须识别第三方依赖关系并立即采取纠正措施以修复关键漏洞。然而,大多数现有方法仅依赖于语法特征,这导致识别准确度较低,并且在代码混淆技术的影响下检测性能大幅下降。此外,一些基于语义的方法面临效率问题。为了解决这些问题,我们提出并实现了一种更精确且可扩展的TPL检测方法——BBDetector。除了语法特征外,我们还考虑了丰富的函数级语义特征,并为每个函数形成特征向量。
2025-10-18 18:26:19
712
原创 论文学习_VulHawk: Cross-architecture Vulnerability Detection with Entropy-based Binary Code Search
代码重用在软件开发中广泛存在,但它也带来了大量的漏洞,威胁着软件安全。不幸的是,随着物联网(IoT)的发展和部署,代码重用的危害被放大。二进制代码搜索是一种有效的方式来发现这些隐藏的漏洞。然而,面对由不同编译器、不同优化级别、不同架构编译的IoT固件镜像,现有方法难以适应这些复杂的场景。在本文中,我们提出了一种新颖的中间表示函数模型,它是一个架构无关的跨架构二进制代码搜索模型。该模型将二进制代码提升为微代码,并通过补充隐式操作数和修剪冗余指令来保留二进制函数的主要语义。
2025-10-18 18:17:59
766
原创 论文学习_Binary Function Clone Search in the Presence of Code Obfuscation and Optimization over Multi-CP
二进制函数克隆搜索是一个重要的能力,支持多个应用和用例,包括逆向工程、补丁安全检查、威胁分析、漏洞函数检测等。因此,设计和实现解决二进制可执行文件和固件镜像中函数相似性问题的技术,已经引起了广泛关注。尽管现有的方法在指纹识别函数克隆方面具有优势,但当目标二进制代码经历了显著的代码转换(如混淆、编译器优化和/或交叉编译到多个CPU架构)时,这些方法存在局限性。
2025-10-18 17:42:09
765
原创 论文学习_sem2vec : Semantics-Aware Assembly Tracelet Embedding
二进制代码相似性是许多安全和软件工程应用的基础。近年来的研究利用深度神经网络(DNN)来学习汇编函数的数值向量表示(即嵌入表示),从而在数值空间中实现相似性分析。然而,现有的基于DNN的技术通常仅捕获汇编代码的语法层、控制流层或数据流层信息,这些信息粒度过于粗糙,无法充分表示程序功能。这些方法在面对诸如编译器优化和代码混淆等复杂场景时,往往缺乏足够的鲁棒性。我们提出了sem2vec,一种从语义中学习的二进制代码嵌入框架。
2025-10-18 17:27:20
961
原创 论文学习_Asteria-Pro: Enhancing Deep Learning-based Binary Code Similarity Detection by Incorporating Do
广泛的代码重用使得漏洞在各种固件中传播。有效且高效地检测这些漏洞代码迫在眉睫。通过测量代码相似性,基于AI的二进制代码相似性检测被应用于大规模漏洞代码检测。现有研究提出了多种功能特征,以捕捉相似性检测中的共同性。然而,由于物联网硬件架构的多样性引起的显著代码语法变化,减少了二进制代码相似性检测的准确性。在我们之前的研究和工具Asteria中,我们采用了TreeLSTM网络来总结函数语义作为函数共同性,评估结果显示出较好的性能。然而,在大规模固件漏洞搜索中,由于时间成本过高和精度不足,仍存在效用问题。
2025-10-18 16:59:32
747
原创 论文学习_kTrans: Knowledge-Aware Transformer for Binary Code Embedding
二进制代码嵌入(BCE)在多种逆向工程任务中具有重要应用,如二进制代码相似性检测、类型恢复、控制流恢复和数据流分析。近期研究表明,Transformer模型能够理解二进制代码的语义,以支持下游任务。然而,现有模型忽略了汇编语言的先验知识。本文提出了一种基于Transformer的新方法,名为kTrans,用于生成知识感知的二进制代码嵌入。通过将显式知识作为额外输入提供给Transformer,并通过一种新颖的预训练任务融合隐式知识,kTrans为将领域知识融入Transformer框架提供了新的视角。
2025-10-18 15:44:32
745
原创 FASER: Binary Code Similarity Search through the use of Intermediate Representations
能够识别跨架构软件中感兴趣的函数,在进行恶意软件分析、软件供应链安全或漏洞研究时都是非常有用的。跨架构二进制代码相似性搜索已经在许多研究中得到探索,并使用了多种不同的数据来源来实现其目标。通常使用的数据来源包括从二进制文件中派生出的常见结构,如函数控制流图、二进制级调用图、反汇编过程的输出或动态分析方法的输出。其中一个较少受到关注的数据来源是二进制中间表示。二进制中间表示具有两个有趣的特性:它们本质上是跨架构的,并且明确地编码了函数的语义,以支持后续的使用。
2025-10-18 11:47:37
475
原创 论文学习_Cross-Inlining Binary Function Similarity Detection
标题: Cross-Inlining Binary Function Similarity Detection (Ang Jia,2024) 作者: Ang Jia, Ming Fan, Xi Xu, Wuxia Jin, Haijun Wang, Ting Liu期刊: ICSE'24二进制函数相似性检测在广泛的安全应用中发挥着重要作用。现有的研究通常假设查询函数和目标函数具有相同的语义,并比较它们的完整语义以获得相似性。然而,论文发现函数映射更加复杂,尤其是在发生函数内联时。本文将系统地研究跨内联的二进
2025-10-18 11:23:42
839
原创 论文学习_FIN: Boosting binary code embedding by normalizing function inlinings
二进制代码相似性检测(BCSD)对于识别不同程序中相似的代码片段至关重要,无论其源语言、编译选项或底层架构如何。这在代码剽窃检测、恶意软件分析和漏洞发现等领域中起着重要作用。然而,由于编译器优化(如函数内联),BCSD面临着重大挑战,这些优化会改变二进制结构。现有的基于规则的函数控制流图(CFG)扩展策略由于在识别内联调用位置时精度和召回率较低,成功有限。在本研究中,论文对函数内联进行了详细的研究,并提出了一种基于AI的解决方案来扩展控制流图,为BCSD方法提供改进。
2025-10-18 10:19:36
1265
原创 论文学习_REVDECODE: Enhancing Binary Function Matching with Context-Aware Graph Representations and Rele
二进制逆向工程在安全任务中至关重要,包括漏洞发现、恶意软件分析和代码重用检测。这些任务通常涉及在没有源代码或调试符号的情况下分析二进制文件。该过程中的一个常见且具有挑战性的步骤是函数匹配,即将未知二进制文件中的函数与已知参考库中的函数进行比较。函数匹配变得复杂,原因在于编译器、优化级别和版本之间的差异所引入的变化。现有的匹配技术主要关注相似性,但逆向工程师更关注相关性——即匹配是否提供有意义的见解。
2025-10-17 21:28:28
789
原创 VexIR2Vec : An Architecture-Neutral Embedding Framework for Binary Similarity
二进制相似性涉及确定两个二进制程序是否表现出相似的功能,广泛应用于漏洞检测、恶意软件分析和版权检测。然而,编译器设置、目标架构和故意的代码混淆的变化显著增加了相似性度量的复杂性,因为它们有效地改变了底层二进制的语法、语义和结构。为了解决这些挑战,我们提出了VexIR2Vec,一种基于VEX-IR的强大、架构中立的方法,用于解决二进制相似性任务。
2025-10-17 21:02:43
634
原创 论文学习_RCFG2Vec: Considering Long-Distance Dependency for Binary Code Similarity Detection
二进制代码相似性检测(BCSD)作为软件安全中的一项基础技术,具有广泛的应用,包括恶意软件家族检测、已知漏洞检测和代码抄袭检测。近年来,基于深度学习的BCSD方法表现出良好的性能。然而,它们面临两个限制检测性能的重大挑战。首先,大多数使用序列网络(如RNN和Transformer)的方法采用粗粒度的标记化方法,导致词汇表大小过大,并且严重的词汇表外(OOV)问题。其次,基于控制流图(CFG)的方法通常使用图卷积网络的变体,这些方法只考虑局部结构信息,忽略了基本块之间的远距离依赖关系。
2025-10-17 20:26:36
1047
原创 论文学习_Improving Binary Code Similarity Transformer Models by Semantics-Driven Instruction Deemphasis
给定一个二进制可执行文件中的函数,二进制代码相似性分析从大量候选函数中确定一组相似函数。这些相似的函数通常是通过不同的编译设置从相同的源代码编译而成。这样的分析有许多应用,如恶意软件检测、代码克隆检测和自动软件修补。当前的最先进方法利用复杂的深度学习模型,如变换器(Transformer)模型。然而,论文观察到这些模型存在由特定编译器约定引起的指令分布偏差。论文开发了一种新技术,能够检测这种偏差,并通过去除数据集中的相关指令并对模型进行微调来修复这些偏差。这需要深度学习模型分析与程序分析的协同作用。
2025-10-17 17:30:46
828
原创 论文学习_SemDiff: Binary Similarity Detection by Diffing Key-Semantics Graphs
对于两个待比较的二进制程序,例如 BinA 和 BinB,分别包含函数集合 {FuncA1, ..., FuncAn} 和 {FuncB1, ..., FuncBm}。为了在函数级别上进行相似性检测,作者从中选取一对函数 FuncAi(i ∈ {1, ..., n})与 FuncBj(j ∈ {1, ..., m}),并将其输入至 SemDiff 中进行相似度计算。图生成:首先,作者利用定制化的符号执行技术,从给定函数中提取关键指令的符号表达式;其次,将提取到的符号表达式转换为关键表达式;
2025-07-13 20:54:48
984
原创 技术学习_检索增强生成(RAG)
RAG(Retrieval-Augmented Generation)是一种结合检索与生成的大语言模型增强机制,它通过三个阶段实现外部知识的有效利用:首先对问题及相关文档进行索引;然后在文档中检索出与问题相关的内容;最后将检索结果作为上下文输入大语言模型,生成更加准确、可靠的回答,从而突破模型知识更新慢、无法访问私有数据等限制。Multi-Query 是一种通过生成多个语义等价但表达方式不同的问题版本,来增强检索效果的方法。相比单一查询,它能从多个角度覆盖知识库中的潜在相关内容,提升信息召回率。
2025-07-10 22:09:49
833
原创 技术学习_大语言模型
大语言模型(LLM)作为推动人工智能发展的核心技术,正不断拓展其在各类任务中的应用边界。ChatGPT 是当前最具代表性的大模型之一,其卓越的语言理解与生成能力,推动人工智能迈上了新的台阶。与此同时,国产大模型 DeepSeek 也在快速发展,凭借高性能、低成本、国产化与开源化等优势,展现出强大的本土竞争力。随着不同类型的大模型不断涌现,LLM 正加速走向更广泛的实用化与生态多元化。:大语言模型具备强大的语言理解与生成能力,能够处理复杂的自然语言任务。
2025-07-02 22:16:49
914
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅