图学习小组-CSDN博客

原创符号执行与SemFix、DirectFix 、Angelix的主要思想

符号执行的核心是一种程序分析技术，起源于20世纪70年代中期，用于检查软件程序在所有可能的使用场景下是否满足特定属性。与传统测试不同，传统测试使用具体输入（如特定的数字或字符串）运行程序并观察其行为，符号执行将输入视为抽象符号。这些符号代表一系列可能的值，并使用约束求解器——如满足模理论（SMT）求解器来确定特定条件（如安全漏洞或bug）是否可以触发。假设你在测试一个程序，确保它没有绕过身份验证的后门。在具体执行中，你可能会使用随机输入进行测试，但如果后门只在非常特定的条件下激活，你可能会错过关键场景。

2025-06-03 10:52:20 748 9

原创 I-CON: A UNIFYING FRAMEWORK FOR REPRESENTATION LEARNING

随着表征学习领域的快速发展，各类损失函数层出不穷，用于解决不同类别的问题。本文提出了一种统一的信息论方程——信息对比学习框架（I-Con），可泛化机器学习中的多种现代损失函数。该框架表明，多个主要类别的机器学习方法本质上是在最小化两个条件分布（监督分布与学习到的表征分布）之间的积分KL散度。这一视角揭示了聚类、谱方法、降维、对比学习和监督学习等方法背后隐含的信息几何结构。通过该框架，我们不仅能建立超过23种不同方法之间的理论联系，还能结合文献中的成功技术设计新的损失函数。

2025-05-23 21:08:45 996 8

原创 FastFixer: An Efficient and Effective Approach for Repairing Programming Assignments

为学生的编程作业提供个性化和及时的反馈对于编程教育至关重要。自动程序修复（APR）技术已被用于修复编程作业中的错误，其中基于大型语言模型（LLM）的方法已显示出可喜的结果。鉴于在高级编程作业中识别和修复错误的复杂性日益增加，当前 APR 的微调策略不足以指导 LLM 在生成修复过程中识别错误并进行准确编辑。此外，LLM 采用的自回归解码方法可能会阻碍修复的效率，从而阻碍提供及时反馈的能力。为了应对这些挑战，本文提出了 FastFixer，这是一种高效且有效的编程赋值修复方法。

2025-05-19 09:59:28 1089 10

原创 BRAFAR: Bidirectional Refactoring, Alignment, Fault Localization, and Repair...

从计算机科学到心理学等各类大学科目的编程教育需求显著增长。众多学生参加线下编程课程和大型开放式在线课程（MOOCs），这使得教师难以及时提供个性化反馈。有效的反馈对学习至关重要，但在大规模环境中完成这项任务变得不切实际。仅仅提供失败的测试用例或教师的解决方案作为反馈往往不足。为解决这一问题，研究人员探索了自动反馈生成方法，以提供更有针对性的反馈，帮助学生有效理解和解决编码问题。其中一条研究路线利用错误模型（手动构建或从数据中学习）来纠正学生的编程错误。然而，这些方法仍需要人工努力或修复率较低。

2025-05-06 15:14:50 961 12

原创 AGENTLESS : Demystifying LLM-based Software Engineering Agents

提出了AGENTLESS——一种自动解决软件开发问题的无代理方法。AGENTLESS使用简单的定位、修复和补丁验证三阶段方法。与先前基于代理的方法相比，AGENTLESS故意不允许LLM用于自主工具使用或规划。通过对流行的SWE-bench Lite基准测试的评估表明，与其他开源技术相比，AGENTLESS可以实现最高的性能，同时最大限度地降低成本。此外，作者还对SWE-bench Lite中的问题进行了详细的分类，不仅可以提供新的见解，还可以在删除有问题的问题后构建更严格的SWE-bench Lite基准

2025-04-18 17:38:11 979

原创 SWE-SEARCH: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement

软件工程师在复杂多变的环境中工作，需要不断适应需求变化、从经验中迭代学习，并基于新见解重新考虑方法。然而当前基于大型语言模型（LLM）的软件代理通常遵循线性、顺序的流程，无法回溯或探索替代解决方案，限制了其在初始方法无效时重新思考策略的能力。为了解决这些挑战，本文提出了SWE-Search，这是一种多代理框架，将蒙特卡洛树搜索（MCTS）与自我改进机制相结合，以提升软件代理在仓库级软件任务上的性能。SWE-Search通过扩展传统的MCTS，引入了混合值函数，利用LLM进行数值估计和定性评估。

2025-04-13 19:58:33 1018

原创 Variable-based Fault Localization via Enhanced Decision Tree

本文提出的方法（命名为 VarDT）的基本思想是利用变量值在失败和通过的测试运行中的差异来区分它们，具有更高区分能力的变量更有可能是故障的根本原因。VarDT 的工作流程包括两个阶段：首先，收集失败和通过测试运行中某些程序检查点的变量值；然后，使用这些变量构建决策树模型以区分失败和通过的测试运行，并识别出用于构建分支条件（即约束条件）的故障相关变量，因为这些变量能够区分失败和通过的测试。

2025-03-30 19:26:55 259

原创 VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videos

检索增强生成（RAG）在通过外部知识集成增强大语言模型（LLM）方面取得了显著的成功，但其应用主要集中在文本内容上，而多模态视频知识的丰富领域则主要未被探索。本文介绍了 VideoRAG，这是第一个专门用于处理和理解超长上下文视频的检索增强生成框架。本文的核心创新在于其双通道架构，该架构无缝集成了（i）基于图的文本知识对齐，用于捕获跨视频语义关系，以及（ii）多模态上下文编码，用于有效保留视觉特征。

2025-03-15 18:08:09 1120

原创 LGS-KT: Integrating logical and grammatical skills for effective programming knowledge tracing

知识追踪（KT）通过分析学生的历史互动来估计他们对知识概念或技能的掌握情况。虽然一般的KT方法已经有效地评估了学生的知识状态，但对学生编程技能的具体评估仍然不足。现有研究主要依赖于练习结果，没有充分利用在编程过程中的行为数据。因此，本文作者提出了一个逻辑和语法技能知识追踪模型（Logical and Grammar Skills Knowledge Tracing, LGS-KT）来提高编程教育领域的知识追踪表现。该模型集成了静态分析和动态监控（如CPU和内存消耗）来评估代码的质量。

2025-02-25 16:47:42 1031

原创 The Surprising Effectiveness of Test-Time Training for Abstract Reasoning

JokerLin 语言模型在其训练分布中的任务上表现出令人印象深刻的性能，但经常难以解决需要复杂推理的新问题。本文以 ARC 为基准，研究了测试时训练（Test-Time Training，TTT）的有效性——在推理过程中使用从输入数据得出的损失临时更新模型参数——作为提高模型推理能力的机制。通过系统实验，确定了成功 TTT 的三个关键组成部分：（1）对类似任务进行初始微调（2）辅助任务格式和增强（3）逐个实例训练。

2025-01-22 21:14:37 406

原创 Mining Idioms from Source Code

提出了第一种从语料库中自动挖掘代码惯用语的方法提出了一个基于非参数贝叶斯概率树替换算法的系统HAGGIS用于挖掘代码习语；通过实验证明了挖掘出的习语是有意义的并且在软件项目中重复出现。编程语言文本是人类交流的一种手段。程序员编写代码不仅仅是为了让计算机执行，还要向后来的开发人员传达代码操作的精确细节，让他们适应、更新、测试和维护代码；本文认为习语是在软件项目中频繁出现的代码片段，并且具有单一的语义性；习语可能具有抽象标识符名称和代码块的元变量；

2025-01-14 20:22:38 1090

原创 LightRAG: Simple and Fast Retrieval-Augmented Generation

检索-增强生成（Retrieval- Augmented Generation, RAG）系统通过整合外部知识源来增强大语言模型（Large Language Model, LLM），从而根据用户需求定制更准确、更符合情境的响应。然而，现有的RAG系统具有很大的局限性，包括扁平的数据表示和不充分的上下文感知，这可能导致碎片化的答案，无法捕获复杂的相互依赖关系。为了应对这些挑战，本文提出了LightRAG，它将图结构融入到文本索引和检索过程中。

2024-12-26 16:34:06 1086

原创 TRACED: Execution-aware Pre-training for Source Code

大多数现有的用于源代码的预训练语言模型集中于学习静态代码文本，或用静态代码结构（抽象语法树、依赖关系图等）来增强。然而，在程序真正执行之前不会完全暴露语义信息。即在不理解程序执行的情况下，静态预训练模型无法全面捕获动态代码属性，例如分支覆盖和运行时变量值，也就影响了它们在代码理解任务（例如检索语义克隆和检测软件漏洞）中的效率。因此，为了弥合语言模型的静态性质和程序的动态特性之间的差距，本文作者引入了TRACED，一种执行感知的源代码预训练策略。

2024-12-20 14:35:08 1006

原创 Multivariate time series classification with crucial timestamps guidance

基于 Transformer 的深度学习方法极大地促进了多元时间序列分类（MTSC）任务。然而，由于自注意力机制的固有操作，大多数现有方法往往忽视时间序列的内部局部特征和时间不变性，可能导致对模型内表示和上下文信息的理解有限。与全局特征相比，局部特征表现出更大的特异性和细节，从而更有利于捕获时间序列的本质纹理信息和局部结构。为了改善这些问题，我们提出了 CTNet，这是一种通过重建关键时间戳来增强时间序列表示学习的新型网络，旨在提高解决 MTSC 任务的能力。

2024-12-08 18:53:57 1237

原创 CC2Vec: Combining Typed Tokens with Contrastive Learning for Effective Code Clone Detection

随着开源社区的发展，代码的复制、传播和演化为软件系统带来了不确定性和风险（如漏洞传播、版权侵权）。现有基于 Token 的工具尽管能扩展到大规模代码，但无法很好地处理语义代码克隆问题。论文提出了一种新颖的代码编码方法 CC2Vec，通过结合 Typed Tokens 和对比学习，能够高效检测简单代码克隆，同时增强对复杂语义代码克隆的检测能力。CC2Vec 采用双层自注意力机制对代码的 Typed Tokens 编码，并通过对比学习减小不同代码实现之间的差异，在 BigCloneBench 和 Google

2024-11-30 18:29:29 931

原创多模态基础模型：从专家到通用助手

随着模型（例如 BERT、GPT 家族、CLIP（Radford et al.， 2021）和 DALL-E（Ramesh et al.， 2021a））的兴起，人工智能一直在经历范式转变，这些模型基于可以适应广泛下游任务的广泛数据进行训练。他们称这些模型为基础模型，以强调其关键的核心但不完整的特征：研究界方法的同质化和新功能的出现。

2024-11-17 18:12:39 1178

原创 MTL-TRANSFER

本文提出了一种基于多任务学习策略的语义特征提取方法 MTL-TRANSFER，并在广泛使用的基准测试 Defects4J 进行的大量实验表明，MTL-TRANSFER 在 FL 和 APR 任务中的性能优于所有基准测试，证明了该方法的有效性。

2024-11-03 20:54:00 1058

原创 SLACC Simion-based Language Agnostic Code Clones

跨语言克隆检测技术可以使研究人员和开发人员创建健壮的语言迁移工具，在精通一门编程语言的时候快速学习更多的编程语言。跨语言克隆检测面临着没有共同底层表示的挑战。为了解决这个问题，可以采用两种方法：静态分析框架（通过匹配不同语言的代码结构和特性）或动态分析框架（通过比较代码的运行时行为）。本文提出一种跨语言克隆检测的动态分析方法——SLACC，使用输入/输出匹配克隆，通过增加输入的数量及涵盖更多的数据类型来克服之前的工作的局限性，检测到更多的的相似代码片段，生成更好的代码集群（clusters）。

2024-10-20 19:43:18 1081 1

原创 Informer: Beyond Efficient Transformer for Long SequenceTime-Series Forecasting

许多实际应用需要预测长序列时间序列，例如用电量规划。长序列时间序列预测（LSTF）要求模型具有很高的预测能力，即能够有效地捕获输出和输入之间的精确长程依赖耦合。最近的研究表明，Transformer 有可能提高预测能力。但是，Transformer 存在几个严重问题，使其无法直接应用于 LSTF，包括二次时间复杂度、高内存使用率和编码器-解码器架构的固有限制。

2024-10-13 19:26:06 1481

原创 Gated Transformer Networks for Multivariate Time Series Classiﬁcation

用于时间序列分类的深度学习模型（主要是卷积网络和 LSTM）已被社区广泛研究，并在医疗保健、金融、工业工程和物联网等不同领域得到广泛应用。与此同时，Transformer Networks 最近在各种自然语言处理和计算机视觉任务上取得了前沿性能。在这项工作中，我们探索了当前带有门控的Transformer Networks的简单扩展，称为门控Transformer网络（GTN），用于解决多元时间序列分类问题。

2024-10-08 18:23:44 1655

原创 PST: Measuring Skill Proficiency in Programming Exercise Process via Programming Skill Tracing

编程已经成为当今个人的一项重要技能。对于提高个人编程技能的需求，跟踪编程技能熟练程度变得越来越重要。然而，很少有研究者关注评估学习者的编程技能。现有的关于学习者能力画像的研究大多只利用练习结果，而忽略了编程练习过程中包含的丰富行为信息。因此，本文提出了一个模型来衡量编程练习过程中的技能熟练程度，称为编程技能跟踪（PST）。具体而言，本文作者设计了代码信息图(Code Information Graph，CIG)来表示学习者解决方案代码(solution code)

2024-09-25 16:06:25 752

原创 STaR: Bootstrapping Reasoning With Reasoning

生成逐步的“思维链”逻辑依据（rationale）可以提高语言模型在数学或常识问答等复杂推理任务上的性能。然而，诱导语言模型进行逻辑依据生成需要构建大量逻辑依据数据集，或者仅使用few-shot推理来牺牲准确性。本文提出了一种技术来迭代地利用少量的逻辑依据示例和没有逻辑依据的大型数据集，以引导连续执行更复杂的推理的能力。这种技术称为“自学推理机”（STaR）：生成回答许多问题的逻辑依据，并用一些逻辑依据示例进行提示；如果生成的答案是错误的，在给出正确答案的情况下再次尝试生成理由，并利用上述数据进行微调。

2024-09-22 10:57:47 1326

原创 Context-Aware Neural Fault Localization

过去的许多错误定位技术，通过发现测试结果（即失败或通过）与程序中不同语句的执行情况（即是否被覆盖）之间的统计相关性，来识别可能导致程序故障的可疑语句。然而，这些技术在计算可疑性时很少考虑故障上下文，故障上下文展示了故障是如何产生的，这对分析和定位故障非常有用。因此过去的方法定位准确性并不高。故障上下文通常包含导致故障的语句之间的传递和依赖关系，建模这一关系通常由于其复杂而具有挑战。为克服这一障碍，本文的见解是利用深度学习的能力，学习一种将故障上下文纳入错误定位的可行的模型。

2024-09-09 17:00:29 893

翻译 Transformers in Time Series: A Survey

Transformer 在自然语言处理和计算机视觉的许多任务中都取得了卓越的性能，这也引发了时间序列社区的极大兴趣。在 Transformer 的众多优势中，捕获长程依赖关系(long-range dependencies)和相互作用(interactions)的能力对时间序列建模特别有吸引力，从而在各种时间序列应用中取得了令人振奋的进展。本文系统地回顾了用于时间序列建模的 Transformer 方案，强调了它们的优点和局限性。并从两个角度研究了时间序列Transformer的发展。

2024-09-05 20:20:06 250

原创 Isolating Compiler Bugs by Generating Effective Witness Programs With Large Language Models

编译器错误对安全关键型应用程序构成了重大威胁，及时有效地隔离这些错误对于保证编译器的质量至关重要。借鉴 ChatGPT 等预训练大型语言模型（ LLMs ）在代码生成方面的最新进展，提出了一种新的基于 LLMs 的编译器错误隔离测试程序生成方法——LLM4CBILLM4CBILLM4CBI。由于生成精确提示和选择专业提示两者的挑战，所以直接将 LLMs 用于测试程序变异可能不会产生期望的结果，针对这个问题LLM4CBILLM4CBILLM4CBI。

2024-08-26 20:18:53 1123

原创 TransRepair

自动修复编译错误能指导新手编写和调试代码，提高软件开发的生产力，目前基于学习的程序修复受到广泛关注；本文提出一种端到端的方法——TransRepair，设计了一个基于Transform的神经网络。与其他方法相比，该方法考虑到错误代码和编译诊断反馈的上下文；本文从两个真实程序数据集和互联网中总结了 5 种类型和 74 种细粒度的编译错误子类型，并开发了一种程序损坏技术（program corruption technique）来综合大型数据集。

2024-08-19 20:40:18 781

原创 Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook

时态数据，包括时间序列和时空数据，在现实世界的应用中极为广泛。这些数据类型记录了动态系统随时间变化的测量值，通常由物理和虚拟传感器产生。对这些数据进行深入分析至关重要，因为它们蕴含着丰富的信息，能够为多种下游任务提供支持。近年来，大语言模型和其他基础模型的快速发展，极大地推动了这些模型在时间序列和时空数据挖掘中的应用。这些方法不仅提升了跨领域模式识别和推理的能力，也为构建能够理解和处理时间数据的通用人工智能奠定了基础。数据类型、模型类别、模型应用范围和应用领域/任务。

2024-07-30 16:04:10 1023

原创 VideoAgent: Long-form Video Understanding with Large Language Model as Agent

长形式视频理解是计算机视觉中的一个重要挑战，需要一个能够在长多模态序列上进行推理的模型。受人类对长形式视频理解的认知过程的启发，本文强调交互推理和规划，而不是处理冗长的视觉输入的能力。本文提出了一个新颖的基于Agent的系统VideoAgent，它使用一个大型语言模型作为中心Agent，迭代地识别和编译关键信息来回答一个问题，视觉语言基础模型作为翻译和检索视觉信息的工具。

2024-07-19 20:34:38 1178

原创 Tracing Knowledge Instead of Patterns: Stable Knowledge Tracing with Diagnostic Transformer

知识追踪（Knowledge Tracing，KT）旨在追踪学习者学习过程中知识状态的演变。目前，在线学习系统愈发关注对用户的学习过程进行建模，进而为用户提供个性化的学习指导。然而，基于深度神经网络的KT的最新研究大多集中在提高预测学生下一步表现的准确性上。本文作者认为，这些KT模型以及训练范式可以跟踪学习者的学习活动模式(pattern)，而不是他们不断发展的知识状态。提出了一个新的架构——Diagnostic Transformer (DTransformer)。

2024-07-15 09:38:22 862

原创 Source Code Assessment and Classiﬁcation

软件开发的速度显著增加。传统的编译器无法评估和检测所有的源代码错误，因此软件可能包含错误，给终端用户带来负面影响。使用传统编译器难以评估和检测源代码的逻辑错误，导致软件中存在错误。因此，需要一种利用人工智能评估和检测错误并将源代码分类为正确（无错误）或错误的方法。在此，我们提出了一种使用基于注意力机制的长短期记忆（LSTM）神经网络的序列语言模型，用于根据估计的错误概率评估和分类源代码。注意力机制提高了所提出语言模型的错误评估和分类的准确性。我们使用正确的源代码训练了所提出的模型，然后评估了其性能。

2024-07-08 15:44:29 895

原创 Aligning LLMs for FL-free Program Repair

大型语言模型( large language models，LLMs )在自动程序修复( automatic program repair，APR )方面取得了不错的效果。然而，Decoder-only的LLMs (如 GPT-4 )的next token prediction训练目标与当前填充式方法（infilling-style）的掩码连续词预测（masked span prediction）目标不一致，这阻碍了LLMs充分利用预训练知识进行程序修复。

2024-07-01 00:14:37 806

原创 TransformCode: A Contrastive Learning Framework for Code Embedding via Subtree Transformation

基于现有的利用迁移学习的预训练模型（PTM），本文提出了TransformCode框架，这是一种以对比学习方式学习代码嵌入的新框架。该框架是与编码器和语言无关的，同时还提出了一种新的数据扩充技术——抽象语法树（AST）转换，该技术将语法和语义转换应用于原始代码片段，以生成更多样、更稳健的样本用于对比学习。在本文中，证明了它在几个与代码相关的任务上相对于最先进的方法（如SourcererCC、Code2vec和InferCode）的有效性和优越性。

2024-06-25 17:47:41 1110

原创 MACER

自动编译错误修复，即对无法编译的错误程序提出修复建议的问题，近年来引起了人们的极大兴趣，其中自动代码修复对于那些认为编译器错误消息晦涩难懂的新手程序员来说具有重要的教学应用价值；现有方法在很大程度上使用重型生成学习技术的黑盒应用来解决这个问题，例如序列到序列预测(TRACER)或强化学习(RLAssist)，这类方法训练时间方面变得庞大，并且在针对特定错误类型时效率低下；作者提出 MACER，该技术基于将修复过程模块化分离为修复识别和修复应用。

2024-06-17 17:50:40 866

原创 KAN: Kolmogorov–Arnold Networks

受Kolmogorov–Arnold表示定理的启发，本文提出了Kolmogorov–Arnold Networks ( KAN )，作为多层感知机( MLP )的一种可行的替代方案。MLP在每一个节点（神经元）上具有固定的激活函数，KAN在边（权重）上具有可学习的激活函数。KAN中完全没有线性权重——每个权重参数都被替换为一个单变量样条函数（spline function）。本文表明，这种看似简单的变化使得KAN在准确性和可解释性方面优于MLP。

2024-05-20 17:41:30 1513

原创 Reinforcement Learning

通过有监督微调，大语言模型已经初步具备了服从人类指令，并完成各类型任务的能力。然而有监督微调需要大量指令和所对应的标准回复，获取大量高质量的回复需要耗费大量的人力和时间成本。由于，有监督微调通常采用交叉熵损失做为损失函数，目标是调整参数使得模型输出与标准答案完全相同，不能从整体上对模型输出质量进行判断。因此，模型不能适用自然语言多样性，也不能解决微小变化的敏感性问题。强化学习则将模型输出文本作为一个整体进行考虑，其优化目标是使得模型生成高质量回复。此外，强化学习方法还不依赖于人工编写的高质量回复。

2024-05-17 10:19:49 1247

空空如也

空空如也