论文
文章平均质量分 94
落啦啦
这个作者很懒,什么都没留下…
展开
-
【论文阅读】Automated Data Visualization from Natural Language via Large Language Models
自然语言到可视化(NL2Vis)任务旨在将自然语言描述转换为基础表的可视化表示,使用户能够从大量数据中获得洞察力。最近,针对NL2Vis开发了许多基于深度学习的方法。尽管这些方法做出了相当大的努力,但在可视化来自未见过的数据库或跨多个表的数据方面仍然存在挑战。从大型语言模型(llm)卓越的生成能力中获得灵感,本文进行了一项实证研究,以评估它们在生成可视化方面的潜力,并探索上下文学习提示对增强这一任务的有效性。原创 2024-05-21 11:12:49 · 341 阅读 · 1 评论 -
【论文阅读】通过组件对齐评估和改进 text-to-SQL 的组合泛化
在 text-to-SQL 任务中,正如在许多 NLP 中一样,组合泛化是一个重大挑战:神经网络在训练和测试分布不同的情况下难以实现组合泛化。然而,最近改进这一点的尝试都是基于单词级合成数据或特定数据集分割来生成组合偏差。在这项工作中,我们提出了一种子句级组合示例生成方法。我们首先将Spider文本转SQL数据集中的句子拆分为子句子,用相应的SQL子句注释每个子句子,从而得到一个新的数据集Spider-SS。原创 2024-03-20 09:46:22 · 1081 阅读 · 0 评论 -
探索ChatGPT时代下的下一代信息检索系统:机遇与挑战
ChatGPT 标志着生成人工智能领域的显着进步,丰富了多种信息检索任务。然而,这一进步并非没有挑战。错误信息、虚假信息和潜在滥用有害内容等道德困境引起了严重关注。此外,可解释性的挑战仍然是一个巨大的障碍。为了应对这些挑战,最近的工作在这些领域取得了长足的进步。我们注意到,公平检索方法已显示出减轻 PLLM 偏见的潜力,促进更公平和公正的内容生成。此外,检索增强学习方法的应用已被认为有利于解决可解释性问题。原创 2024-03-18 20:37:04 · 1512 阅读 · 1 评论 -
【论文阅读】Relation-Aware Graph Transformer for SQL-to-Text Generation
SQL2Text 是一项将 SQL 查询映射到相应的自然语言问题的任务。之前的工作将 SQL 表示为稀疏图,并利用 graph-to-sequence 模型来生成问题,其中每个节点只能与 k 跳节点通信。由于无法捕获长期且缺乏特定于 SQL 的关系,这样的模型在适应更复杂的 SQL 查询时将会退化。为了解决这个问题,我们提出了一种 Relation-Aware Graph Transformer(RGT)来同时考虑 SQL 结构和各种关系。具体来说,为每个SQL构建一个抽象的SQL语法树来提供底层关系。原创 2024-01-16 17:09:46 · 1273 阅读 · 0 评论 -
【论文笔记】Summarizing source code through heterogeneous feature fusion and extraction
在 HetSum 的和基础上,提出 HetCoS 通过探索源代码固有的异构性来提取源代码的语法和顺序特征以进行代码摘要。具体来说,我们首先构建一个异构代码图(HCG),它将语法结构和代码序列与图节点之间设计的八种类型的边/关系融合在一起。此外,我们提出了一种异构图神经网络来捕获 HCG 中的不同关系。然后将表示的 HCG 输入 Transformer 解码器,然后采用基于多头注意力的复制机制来支持高质量摘要生成。原创 2024-01-11 10:32:52 · 1011 阅读 · 0 评论 -
【论文笔记】Summarizing source code with Heterogeneous Syntax Graph and dual position
在本文中,我们提出了一个名为 HetSum 的新颖框架。具体来说,首先通过在 AST 中设计六种类型的增强边来构建异构语法图(HSG),这表明了源代码的异构结构。同时,考虑布局信息,为源代码中的每个标记设计了双重位置。此外,我们在 HetSum 中开发了异构图神经网络来对 HSG 进行编码,同时使用 Transformer 编码器提取代码布局特征。通过将学习到的代码标记向量同化到 HSG 编码器中,HetSum 可以捕获两个编码器之间的关系,以改进代码表示。原创 2024-01-08 16:07:22 · 1206 阅读 · 1 评论 -
【论文笔记】An Extractive-and-Abstractive Framework for Source Code Summarization
2. Model抽象器的训练通过六个步骤完成:➃ 提取重要语句(IState),➄ 和 ➅ 生成重要语句和整个代码的嵌入表示(eExe^{Ex}eEx和eAbe^{Ab}eAb) ➆ 基于eExe^{Ex}eEx和eAbe^{Ab}eAb生成融合表示eFue^{Fu}eFu,➇ 生成预测摘要,以及 ➈ 根据预测摘要(PSummaries)和真实摘要(注释)计算损失 {L_Ab} 以更新模型参数。提取重要语句。原创 2024-01-03 21:04:24 · 1321 阅读 · 1 评论 -
【论文笔记】A Transformer-based Approach for Source Code Summarization
为了学习序列中标记的顺序并对标记之间的关系进行建模,Transformer 需要注入位置编码。在这项工作中,本方法表明,通过使用相对位置表示对源代码标记之间的成对关系进行建模,相较于使用绝对位置表示学习代码标记的序列信息会取得更显著的改进。在本节中,将简要描述 Transformer 架构以及如何在 Transformer 中对源代码标记的顺序或其成对关系进行建模。相反,它们的相互作用会影响源代码的含义。然而,我们表明,捕获代码标记的顺序对学习源代码表示没有帮助,并且会导致摘要性能较差。原创 2023-12-05 21:20:31 · 1659 阅读 · 0 评论 -
【论文阅读】SCRIPT:Source Code Summarization with Structural Relative Position Guided Transformer
在本文中,我们提出了一种名为 SCRIPT 的基于 Transformer 的神经方法,它可以很好地学习代码的结构语义以进行源代码摘要。为了利用这两种 Transformer 编码器,我们引入了 SCRIPT 编码器模块,它是两种类型 Transformer 的堆栈,即 RDW-Transformer 和 SRPEi-Transformer。这样的表示有一个好处,就是位置矩阵 M 可以很容易地集成到 Transformer 中,而无需改变 Transformer 的架构。具体来说,我们将 AST 中令牌。原创 2023-11-16 10:35:55 · 157 阅读 · 0 评论 -
【论文笔记】Self-Attention with Relative Position Representations
本文则是从Self-Attention机制内部出发,通过在计算过程中引入token之间的相对位置关系向量,打破了Self-Attention机制的Permutation-Invariant特性,从而更高效地完成了位置信息的编码,性能得到了提升。本文扩展自注意力以考虑输入元素之间的成对关系,从这个意义上讲,就是将输入建模为标记的(labeled),有向的( directed),完全连接的图( fully-connected graph)。的表示,将输入元素之间的edge表示为。个唯一的edge标签。原创 2023-11-15 15:51:09 · 288 阅读 · 0 评论 -
What Do They Capture? - A Structural Analysis of Pre-Trained Language Models for Source Code
- 分析自注意力权重(self-attention weights),并将权重与语法结构对齐。给定一个代码片段,我们的假设是,如果两个 token 在AST中彼此接近,即具有邻域关系,则分配给它们的关注权重应该很高。我们的分析表明,attention 可以捕捉源代码的高级结构属性,即 AST 中的基序结构。- 设计了一种结构探测方法,以研究语法结构是否嵌入到了 预训练模型的线性变换的上下文词嵌入中。- 研究了源代码的预训练语言模型是否能够在没有训练的情况下生成语法树。原创 2023-11-15 09:51:03 · 76 阅读 · 0 评论 -
SynCoBERT:语法引导的多模态对比预训练用于代码表示。
提出了SYNCOBERT,一个语法引导的多模态对比预训练框架,用于代码表示。我们设计了两个新的预训练目标来编码编程语言的符号和语法信息。第一个IP目标预测代码token是否是标识符。第二个TEP目标预测AST的两个节点之间的边。提出了一种多模态对比预训练策略,该策略通过**对比学习**来学习更全面的表征,从而最大化不同模态(代码、注释和AST)之间的相互信息。原创 2023-11-08 20:25:43 · 297 阅读 · 0 评论 -
TreeBERT:基于树的编程语言预训练模型。
使用字节对编码(BPE),从AST的值节点和代码片段中学习最常见的 subtoken,并对其进行切片,例如 “third_party” 可能被切片成 “third” ,“-” 和 “party”,使用过程每个token 的所有 subtoken 的向量和来表示完整的 token。中的值节点对应的 tokens,屏蔽代码片段 C 中的其他节点。代码是强结构化的,代码的语义依赖于要表示的具有不同语法结构的程序语句和表达式的组合,不能仅仅采用类似于自然语言的处理方法(简单的将代码建模为单词序列)。原创 2023-11-06 11:13:20 · 377 阅读 · 0 评论 -
GraphCodeBert:基于数据流的代码表征预训练模型
对于 X 中的每一个 token,它的输入向量是通过将其对应的token和位置嵌入(position embedding)相加构建而来的。MLM用于源码表示学习,MLM目标是预测随机抽样Masked token的原始token,如果源码上下文不足以推出 masked code token,可以使用注释上下文信息,从而促进模型对齐 NL-PL 表示。= { [CLS],W,[SEP],C,[SEP],V },其中 [CLS] 是三个段前的特殊token,[SEP]是分割两种数据类型的特殊token。原创 2023-11-06 09:14:42 · 522 阅读 · 0 评论