![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
code embedding
文章平均质量分 96
I still …
这个作者很懒,什么都没留下…
展开
-
受控代码生成-CCS 23
受控代码生成原创 2023-12-23 10:31:22 · 270 阅读 · 1 评论 -
Code Embedding研究系列11-ContraFlow
一种Path-Sensitive的code embedding技术原创 2022-07-17 23:11:10 · 1098 阅读 · 3 评论 -
code embedding研究系列十一 - VulDeeLocator
VulDeeLocator: A Deep Learning-based Fine-grained Vulnerability Detector一.背景二.基本思想三.VulDeeLocator概述四.基于中间代码的表示4.1. 漏洞candidate表示的指导原则4.2.提取sSyVCs4.3.生成iSeVCs4.3.1.生成链接好的中间文件(原则1)4.3.2.生成对应sSyVCs的中间表示slice并进一步生成iSeVCs(原则2)五.细粒度的漏洞检测参考文献一.背景自动检测软件漏洞在学术界引起了原创 2021-10-06 13:45:21 · 3209 阅读 · 8 评论 -
code embedding研究系列十-IVDetect
Vulnerability Detection with Fine-Grained Interpretations一.背景二.motivation2.1.example一.背景现有的漏洞检测方法大部分只是根据给定代码片段,确认该片段是否包含漏洞(分类)。而并没有指出哪些statement有问题。因此作者提出了IVDetect。主要包括用一个新的代码表示方法。作者基于PDG对代码进行表示(源代码用图结构表示),并从PDG提取不同的信息将其向量化。并使用FA-GCN(Graph Convolution原创 2021-07-17 15:39:57 · 1642 阅读 · 4 评论 -
code embedding研究系列九-Reveal
Deep Learning based Vulnerability Detection:Are We There Yet?一.背景二.数据集2.1 现有数据集2.2 Reveal数据集一.背景漏洞检测具有重大的意义,针对DLVP(Deep Learning Vulnerability detection)任务,作者在对现有的漏洞检测方法(VulDeepecker, SyScVR)等测试时发现了一些问题。在sard等合成数据集训练的模型用在真实场景下(FFMPeg, Qemu, Linux等)效果很差原创 2021-07-03 23:26:22 · 1878 阅读 · 20 评论 -
基于Slice-level程序表示的漏洞检测
Slice-level程序表示1. VulDeePecker1.1.程序表示code gadget1.1.1.提取library/API function calls和program slice1.1.2.提取code gadget并给它们打上标签1.1.3.将code gadget符号化1.2.code gadget向量化参考文献1. VulDeePecker目标,识别程序中是否有漏洞。如果有,定位漏洞的位置(这个放到今天都算研究的热门话题)1.1.程序表示code gadget作者提出了一个co原创 2021-04-16 21:14:35 · 1131 阅读 · 0 评论 -
code embedding研究系列八-CuBERT
Learning and Evaluating Contextual Embedding of Source Code一.概述二.数据集2.1.预训练数据集2.2.fine-tunning数据集三.源代码的tokenize四.任务4.1.预训练任务4.2.下游任务4.2.1.Variable-Misuse Classification4.2.2.Wrong Binary Operator4.2.3.Swapped Operand4.2.4.Function-Docstring Mismatch4.2.5.原创 2021-04-07 14:38:34 · 1232 阅读 · 0 评论 -
code embedding研究系列七-Devign
Devign: Effective Vulnerability Identification byLearning Comprehensive Program Semantics viaGraph Neural Networks概述Devign Model问题描述数据准备数据集数据预处理参考文献概述最近几年软件漏洞的数量迅速增加,有的是通过CVE (Common Vulnerabilities and Exposure)公开报告的,有的是在专有网络内部发现的代码。漏洞识别是安全领域中一个关键而又具有原创 2021-04-01 11:46:57 · 2176 阅读 · 5 评论 -
code embedding研究系列六-C-BERT
Exploring Software Naturalness throughNeural Language Models论文概述模型:C-BERTTokenizerTransformer Based Language ModelsMasked Language Model (MLM) Pre-training ObjectiveWhole Word Masked (WWM) Pre-training ObjectiveAST Fine-tuning ObjectiveVI Fine-tuning Objec原创 2021-03-09 11:47:37 · 1505 阅读 · 6 评论 -
code embedding研究系列五-GraphCodeBert
GraphCodeBert概述原创 2021-03-07 11:44:01 · 4679 阅读 · 3 评论 -
code embedding研究系列四- CODE-NN
Summarizing Source Code using a Neural Attention Model论文概述任务描述code summarization (GEN)code retrieval (RET)论文概述高质量的源代码通常与它的功能摘要相匹配,例如在代码文档或论坛在线发布的描述。这样摘要对于代码搜索(code search)等任务非常有用,但手工编写代码文档(摘要)的成本很高,因此,只有一小部分代码有相应的代码文档。所以,作者提出了CODE-NN,来为C# code snippets原创 2021-02-13 22:05:08 · 4069 阅读 · 0 评论 -
code embedding研究系列一-基于token的embedding
Code Embedding1.Automated software vulnerability detection with machine learning数据集来源数据集预处理分类方法获取token向量化表示分类模型参考文献NLP中embedding无处不在,embedding将大型稀疏向量转换为保留语义关系的低维空间。在源代码研究领域(源代码分类,源代码克隆检测,变量,方法等重命名等)也会需要用到embedding,即code embedding。code embedding可以分成很多种:1原创 2020-12-26 13:53:34 · 6369 阅读 · 1 评论 -
code embedding研究系列二-基于AST的embedding
Code Embedding系列 - AST embedding一.相关论文1.Convolutional Neural Networks over Tree Structuresfor Programming Language Processing数据集用到的工具整体架构在Embedding技术提出后,NLP得到了极大的提升,在上一篇中我们讨论了如何将embedding技术应用到SE(Software Engineering)领域。这对于源代码分析任务(克隆检测,bug检测等)有极大的意义,在上一篇中同原创 2020-12-29 19:31:56 · 2760 阅读 · 0 评论 -
code embedding研究系列三-CC2Vec
CC2Vec: Distributed Representations of Code Changes论文概述CC2Vec架构PreprocessingInput LayerFeature Extraction LayersHierarchical Attention Network.Comparison LayersFeature Fusion and Word Prediction Layers预训练设置在其它任务上的实验日志信息生成(log message generation)Bug修复补丁识别(B原创 2021-02-10 15:12:48 · 1508 阅读 · 2 评论