Deep code comment generation with hybrid lexical and syntactical 笔记

最新推荐文章于 2024-09-08 11:09:43 发布

qq_42024924

最新推荐文章于 2024-09-08 11:09:43 发布

阅读量694

收藏

点赞数

分类专栏：论文笔记文章标签： java 自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42024924/article/details/107283038

版权

论文笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Deep code comment generation with hybrid lexical and syntactical

deepcode的扩展版本

在DeepCom中，直接从遍历的AST序列生成注释。在Hybrid-DeepCom中，将源代码和遍历的AST序列组合在一起以生成注释。
在DeepCom中，我们使用节点“type”来表示out-of-vocabulary的标记。在Hybrid-DeepCom中，我们根据驼峰命名将标识符分成多个单词。
在DeepCom中，注释是逐词生成的，而在Hybrid-DeepCom中，我们在生成代码注释时利用了beam search。

approach

包含三个阶段：数据处理，模型训练和在线测试

在这里插入图片描述

seq2seq网络

在这里插入图片描述

encoder

使用了两个encoder来对源代码以及AST序列进行编码。一个encoder学习源代码中的词汇信息，而另一个encoder学习AST序列中的结构信息。

code encoder

结构为GRU,对java的token进行编码，学习其中的词法信息。在每个时间步t，它读取序列的一个token xt，然后更新并记录当前的隐藏状态st，即 $s_t = f (x_t, s_{t−1})$

ast encoder

结构为GRU，在每个时间步t，它读取ast的一个节点 xt，然后更新并记录当前的隐藏状态st，

attention

值得注意的是，这里使用了两个encoder，需要对这两个同时进行注意力的权值分配

decoder

beam search
在这里插入图片描述

Beam Search扩展了贪婪搜索，并返回最可能的输出序列的列表。

它一步一步地搜索在每个步骤中产生的注释标记。在每个时间步长，选择成本最低的k个token，其中k是beam width。然后，它会修剪掉其余的分支，并继续选择可能的token，直到遇到序列结束符号（即End）为止。

最后，Hybrid-DeepCom为每个Java方法产生k条注释。在beam search过程中，我们根据生成的注释的平均概率对它们进行排序。在本文中，我们选择top1 评论作为最终结果。

SBT

不需要带上value，道理很简单，因为在code encoder中已经对value进行了编码，只需要带上其type信息来编码其结构就ok。

减少词汇表外的token

将标识符分成几个单词，以减少源代码中的out of vocabulary token。

qq_42024924

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Deep code comment generation with hybrid lexical and syntactical 笔记

Deep code comment generation with hybrid lexical and syntacticaldeepcode的扩展版本在DeepCom中，直接从遍历的AST序列生成注释。在Hybrid-DeepCom中，将源代码和遍历的AST序列组合在一起以生成注释。在DeepCom中，我们使用节点“type”来表示out-of-vocabulary的标记。在Hybrid-DeepCom中，我们根据驼峰命名将标识符分成多个单词。在DeepCom中，注释是逐词生成的，而在Hyb
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值