论文阅读-Transformer-based language models for software vulnerability detection

原创

于 2024-02-06 13:05:52 发布

· 1.2k 阅读

·

22

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#论文阅读 #transformer #语言模型 #漏洞检测 #人工智能安全 #人工智能

本文介绍了一个利用Transformer语言模型检测软件漏洞的系统，通过源代码翻译、BERT和GPT模型训练，实现对代码片段的分析。通过数据清洗、预处理和词嵌入，提升模型性能并与RNN模型进行对比。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

「分享了一批文献给你，请您通过浏览器打开
https://www.ivysci.com/web/share/biblios/D2xqz52xQJ4RKceFXAFaDU/
您还可以一键导入到 ivySCI 文献管理软件阅读，并在论文中引用」

本文主旨：本文提出了一个系统的框架来利用基于Transformer的语言模型来检测软件漏洞。该框架包括以下几个步骤：

1. 源代码翻译：将C/C++高级编程语言的源代码转换为能输入transformer的格式。这样做是为了利用自然语言与高级编程语言之间的相似性。

2. 模型准备：使用大规模的基于Transformer的语言模型进行训练和微调。其中，本文主要考虑了BERT (Bidirectional Encoder Representations from Transformers) 模型和GPT (Generative Pre-trained Transformer) 模型。

3. 推断：将经过翻译的源代码注释片段输入到训练好的语言模型中，以进行软件漏洞的检测。语言模型将根据上下文理解注释和代码的关系，并判断是否存在潜在的漏洞。

通过这个框架，可以利用Transformer-based语言模型来自动检测软件漏洞，并且相比传统的基于RNN的模型，语言模型在漏洞检测方面具有更好的性能表现。

本文的创新点：

简而言之就是，将软件的源代码转换成自然语言，通过transformer来推断源代码有没有漏洞。

最低0.47元/天解锁文章

博客等级

码龄4年

118
原创

538
点赞

559
收藏

460
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 时间序列模型学习笔记

下一篇：: 中国矿业大学密码学笔记

最新评论

论文阅读-Large Language Models are Zero-Shot Fuzzers: Fuzzing Deep-Learning Libraries via Large Language
涤旧而生新: 兄弟太强了，最近也在研究这方面的东西！
使用pycharm+opencv进行视频抽帧(可以用来扩充数据集）+ labelimg的使用（数据标准）
苏几下: 最后是这个：COMET INFO : To upload this offline experiment , run : comet upload D :\yolov5-7.0\. cometml - runs \d9031c2bc8b846f986e5fe1124690158.zip
使用pycharm+opencv进行视频抽帧(可以用来扩充数据集）+ labelimg的使用（数据标准）
苏几下: train : weights =yolov5s. pt , cfg =, data = data \ bvn . yaml , hyp = data \ hyps \ hyp . scratch - low . yaml , epochs =100, batch _ size =16, imgsz =640, rect = False , resume = False , nosave = False , noval = False , noautoanchor = False , noplots = False , evolve = None , bucket =, cache = None , image _ weights = False , device =, multi _ scale = False , single _ cls = False , optimizer = SGD , sync _ bn = False , workers =8, pro ject = runs \ train , name = exp , exist _ ok = False , quad = False , cos _ lr = False , label _ smoothing =0.0, patience =100, freeze =[0], save _ period =-1, seed =0, local _ rank =-1, entity = None , upload _ datas et = False , bbox _ interval =-1, artifact _ alias = latest github : skipping check ( not a git repository ), for updates see https://github.com/ultralytics/yolov5 YOLOv52022-11-22 Python -3.12.7 torch -2.4.1+cu124 CUDA :0( NVIDIA GeForce RTX 4060 Laptop GPU ,8188MiB) hyperparameters :1r0=0.01,1rf=0.01, momentum =0.937, weight _ decay =0.0005, warmup _ epochs =3.0, warmup _ momentum =0.8, warmup _ bias _ lr =0.1, box =0.05, cls =0.5, cls _ pw =1.0, obj =1.0, obj _ pw =1.0, iou _ t =0.2, anchor _ t =4.0, fl _ gamma =0.0, hsv _ h =0.015, hsv _ s =0.7, hsv _ v =0.4, degrees =0.0, translate =0.1, scale =0.5, shear =0.0, perspective =0.0, flipud =0.0, fliplr =0.5, mosaic =1.0, mixup =0.0, copy _ paste =0.0ClearML: run ' pip install clearml ' to automatically track , visualize and remotely train YOLOv5 in ClearML TensorBoard : Start with ' tensorboard -- logdir runs \ train ', view at http://localhost:6006/ COMET WARNING : Comet credentials have not been set . Comet will default to offline logging . Please set your credentials to enable online logging . COMET WARNING : To get all data logged automatically , import comet _ ml before the following modules : tensorboard , tensorflow , keras , torch . COMET INFO : Using ' D :\yolov5-7.0\\. cometml - runs ' path as offline directory . Pass ' offline directory ' parameter into constructor or set the ' COMET _ OFFLINE DIRECTORY ' environment va riable to manually choose where to store offline experiment archives . COMET WARNING : Native output logging mode is not available , falling back to basic output logging Traceback ( most recent call last ): File " d :yolov5-7.0\ train . py ", line 633, in < module > main ( opt ) File " d :\yolov5-7.0\ train . py ", line 527, in main train ( opt . hyp , opt , device , callbacks ) File " d :\yolov5-7.0\ train . py ", line 95, in train loggers = Loggers ( save _ dir , weights , opt , hyp , LOGGER )# loggers instance ΑΛΑΑΑΑΛΛΛΑΛΑΛΑΑΛΑΑΛΑΑΑΑΛΑΛΛΑΑΛΛΑΑΛΑΛΛΛΑΑΛΛΛΑ File " d :\yolov5-7.0\ utils \ loggers _ init _- py ", line 132, in _ init _ self . comet _ logger = CometLogger ( self . opt , self . hyp ) ΑΛΑΑΛΑΛΛΑΛΛΛΑΛΛΛΛΛΑΑΛΛΑΛΛΛΛΛΛΛΑ File " d :\yolov5-7.0\ utils \ loggers \ comet _ init _. py ", line 97, in _ init __ self . data _ dict = self . check _ dataset ( self . opt . data ) Aww File " d :\yolov5-7.0\ utils \ loggers \ comet __ init _. py ", line 232, in check _ dataset data _ config = yaml . safe _ load ( f ) AAww File " C :\ Users \ Lenono \. conda \ envs \yolov5\ Lib \ site - packages yaml _ init _. py ", line 125, in safe _ load return load ( stream , SafeLoader ) ΑΛΛΛΛΛΑΛΛΛΑΛΛΛΛΛΑΑΛΛΑΛΛΑ File " C :\ Users \ Lenono \. conda \ envs \yolov5\ Lib \ site - packages \ yaml __ init _. py ", line 79, in load loader = Loader ( stream ) AAAAAAAAAAAAA File " C :\ Users \ Lenono \. conda \ envs \yolov5\ Lib \ site - packages \ yaml \ loader . py ", line 34, in _ init _ Reader ._ init _( self , stream ) File " C :\ Users \ Lenono \. conda \ envs \yolov5\ Lib \ site - packages yaml \ reader . py ", line 85, in _ init _ self . determine _ encoding () File " C :\ Users \ Lenono \. conda \ envs \yolov5\ Lib \ site - packages \ yaml \ reader . py ", line 124, in determine _ encoding data = self . stream . read ( size ) ΑΛΑΑΑΑΑΑΑΑΑΑΛΛΛΑΛΛΛΛΛΑ UnicodeDecodeError :' gbk ' codec can ' t decode byte 0x80 in position 233: illegal multibyte sequence COMET INFO : The process of logging environment details ( conda environment , git patch ) is underway . Please be patient as this may take some time . COMET INFO : Couldn '
使用pycharm+opencv进行视频抽帧(可以用来扩充数据集）+ labelimg的使用（数据标准）
苏几下: 我又弄了一次，然后有照片了，但是运行train.py的时候一直不行
使用pycharm+opencv进行视频抽帧(可以用来扩充数据集）+ labelimg的使用（数据标准）
Che_Che_: 你可以试试文中提到的，自己手动创建一个images文件夹，再运行一次，看看文件夹里面有没有

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。