LLM4Decompile——专门用于反编译的大规模语言模型

概述

论文地址:https://arxiv.org/abs/2403.05286

反编译是一种将已编译的机器语言或字节码转换回原始高级编程语言的技术。该技术用于分析软件的内部工作原理,尤其是在没有源代码的情况下;Ghidra 和 IDA Pro 等专用工具已经开发出来,但这些工具很难生成人类可读格式的代码。反编译的最大挑战是完全再现代码的基本结构,如变量名、循环和条件语句,这些在编译过程中往往会丢失。

为解决这一问题,大规模语言模型(LLM)的最新进展备受瞩目。这些模型将编程语言视为一种语言系统,并使用预先训练好的模型来处理各种编码任务。与传统方法相比,这种方法取得了显著的进步,并表明在反编译领域也可以采用类似的方法。

然而,到目前为止,很少有标准基准或公开可用的数据集来评估和比较反编译技术。研究人员使用不同的数据集,因此很难对结果进行直接比较。因此,在本文中,我们开发了一个专门用于反编译的开源大规模语言模型,并建立了第一个侧重于可重编译性和可重执行性的反编译基准。这有望统一反编译领域的评估标准,促进进一步的研究。下图显示了本文的反编译评估步骤。

什么是 LLM4Decompile?

LLM4Decompile 是一项致力于反编译程序的开创性举措。首先,在构建预训练数据时,它以一百万个名为 Anghabench 的公开可编译 C 文件为基础

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知来者逆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值