自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1616)
  • 资源 (1)
  • 收藏
  • 关注

原创 A Survey of Backdoor Attacks and Defenses on Large Language Models

大型语言模型 (LLM) 弥合了人类语言理解和复杂问题解决之间的差距,在多项 NLP 任务上实现了最先进的性能,特别是在少样本和零样本设置中。尽管 LMM 的功效显而易见,但由于计算资源的限制,用户必须使用开源语言模型或将整个训练过程外包给第三方平台。然而,研究表明,语言模型容易受到潜在安全漏洞的影响,特别是在后门攻击中。后门攻击旨在通过毒害训练样本或模型权重,将目标漏洞引入到语言模型中,从而使攻击者能够通过恶意触发器操纵模型响应。

2024-10-01 10:00:00 76

原创 A Few-Shot Approach for Relation Extraction Domain Adaptation using Large Language Models

知识图谱 (KGs) 已成功应用于复杂科学和技术领域的分析,自动 KG 生成方法通常建立在捕获文本中领域实体之间细粒度关系的关系提取模型之上。虽然这些关系完全适用于各个科学领域,但现有模型是在少数特定领域的数据集(如 SciERC)上训练的,并且在新的目标领域表现不佳。在本文中,我们尝试利用大型语言模型的上下文学习功能来执行模式约束的数据注释,为部署在结构、构造、工程和运营 (AECO) 领域研究论文的标题和摘要上的基于 Transformer 的关系提取模型收集域内训练实例。

2024-10-01 09:30:00 8

原创 A Proposed S.C.O.R.E. Evaluation Framework for Large Language Models Safety, Consensus, Objectivity,

适用于医疗保健领域大型语言模型 (LLM) 的综合定性评估框架,其扩展范围超出了所需的传统准确性和定量指标。我们提出了评估 LLM 的 5 个关键方面:安全性、共识性、客观性、可重复性和可解释性 (S.C.O.R.E.)。我们建议 S.C.O.R.E. 可以成为未来基于 LLM 的模型的评估框架的基础,这些模型对于医疗保健和临床应用来说是安全、可靠、值得信赖和合乎道德的。

2024-09-30 12:30:30 15

原创 500xCompressor: Generalized Prompt Compression for Large Language Models

提示压缩对于提高推理速度、降低成本和改善用户体验至关重要。然而,目前的方法面临着压缩比低和评估过程中可能的数据泄漏等挑战。为了解决这些问题,我们提出了 500xCompressor,这是一种将广泛的自然语言上下文压缩为至少一个特殊token的方法。500xCompressor 引入了大约 0.25% 的附加参数,并实现了 6 倍到 480 倍的压缩比。它旨在压缩任何文本,回答各种类型的问题,并且可以被原始的大型语言模型 (LLM) 使用,而无需微调。

2024-09-30 12:01:52 134

原创 A Federated Large Language Model for Long-Term Time Series Forecasting

集中式环境中的长期时间序列预测在数据隐私、通信开销和可扩展性方面提出了独特的挑战。为了应对这些挑战,我们提出了 FedTime,这是一种专为长期时间序列预测而定制的联合大语言模型 (LLM)。具体来说,我们引入了具有微调和对齐策略的联合预训练LLM。在学习过程之前,我们采用 K 均值聚类将边缘设备或客户端划分为不同的集群,从而促进更有针对性的模型训练。我们还结合了通道独立性和修补功能,以更好地保留本地语义信息,确保保留重要的上下文细节,同时最大限度地降低信息丢失的风险。

2024-09-30 09:15:00 85

原创 A Look Into Training Large Language Models on Next Generation Datacenters

计算机网络研究还值得吗?鉴于超大规模网络在已部署的大型网络中占据主导地位,该领域存在哪些相关问题?我们采取非常规的方法来寻找相关的研究方向,从微软为机器学习建造一个 1000 亿美元的数据中心的计划开始。我们的目标是了解可以在这样的数据中心中训练哪些模型,以及在此过程中可能遇到的高级挑战。我们首先检查目标数据中心的冷却和电力要求所带来的限制,发现在单个位置构建是不可行的。我们使用 LM 缩放定律来确定我们可以训练 50T 或 100T 参数的模型。

2024-09-30 08:30:00 94

原创 Internal Consistency and Self-Feedback in Large Language Models: A Survey

大型语言模型(LLM)经常表现出推理缺陷或产生幻觉。为了解决这些问题,人们开始发起以“自我”为前缀的研究,例如自我一致性、自我改进和自我完善。他们有一个共同点:LLM需要自我评估和更新。尽管如此,这些努力缺乏统一的总结视角,因为现有的调查主要集中在分类上。在本文中,我们总结了一个理论框架“内部一致性”,为推理缺陷和幻觉提供了解释。内部一致性是指LLM的潜在层、解码层或响应层之间基于采样方法的表达的一致性。然后,我们引入了另一个能够挖掘内部一致性的有效理论框架,称为自我反馈。

2024-09-29 11:45:00 10

原创 A Comprehensive Evaluation of Large Language Models on Temporal Event Forecasting

最近,大型语言模型(LLM)在各种数据挖掘任务中表现出了巨大的潜力,例如知识问答、数学推理和常识推理。然而,法学硕士在时间事件预测方面的推理能力尚未得到充分探索。为了系统地研究他们在时间事件预测方面的能力,我们对基于LLM的时间事件预测方法进行了综合评估。由于缺乏涉及图和文本数据的高质量数据集,我们首先构建一个基准数据集,命名为MidEast-TE-mini。基于该数据集,我们设计了一系列基线方法,其特点是各种输入格式和检索增强生成(RAG)模块。

2024-09-29 09:30:00 103

原创 CANCERLLM: A LARGE LANGUAGE MODEL IN CANCER DOMAIN

ClinicalCamel 70B、Llama3OpenBioLLM 70B 等医学大语言模型 (LLM) 在各种医学 NLP 任务中表现出了令人印象深刻的性能。然而,目前仍然缺乏专门针对癌症领域设计的大型语言模型(LLM)。此外,这些LLM通常有数十亿个参数,这使得它们对于医疗保健系统来说计算成本高昂。

2024-09-28 10:00:00 15

原创 Leveraging Open Knowledge for Advancing Task Expertise in Large Language Models

培养大型语言模型(LLM)的专业知识来解决特定领域的任务通常需要针对预期稳定输出进行特殊目的的调整和校准行为。为了避免手动准备长达数百小时的指令数据集和训练资源带来的巨额成本,利用包括丰富的低秩适应(LoRA)模型和指令数据集在内的开放知识作为一个很好的起点。然而,现有的模型和数据选择方法侧重于通用功能的性能,而忽略了特定领域部署中暴露的知识差距。在本研究中,我们建议通过引入少量人工注释样本(即 K-shot)来弥合这一差距,以利用开放知识提升LLM的任务专业知识。

2024-09-28 09:15:00 10

原创 Mitigating Exaggerated Safety in Large Language Models

随着大型语言模型 (LLM) 的普及,将模型安全性与实用性相结合变得越来越重要。面临的挑战是确保LLM能够识别并拒绝危险的提示,而不牺牲他们提供帮助的能力。“夸大安全”的问题表明这有多么困难。为了减少过度的安全行为(发现有 26.1% 的安全提示被错误分类为危险并被拒绝),我们结合使用 XSTest 数据集提示以及交互式、上下文和少量提示来检查 LLM 的决策范围例如 Llama2、Gemma、Command R+ 和 Phi-3。

2024-09-27 12:00:00 15

原创 Jailbreak Attacks and Defenses Against Large Language Models: A Survey

大型语言模型(LLM)在各种文本生成任务中表现出色,包括问答、翻译、代码补全等。然而,LLM 的过度协助带来了“越狱”的挑战,这导致模型生成通过设计对抗性提示来恶意应对使用政策和社会。随着利用LLM不同漏洞的越狱攻击方法的出现,相应的安全调整措施也在不断发展。在本文中,我们提出了全面而详细的越狱攻击和防御方法的分类。例如,根据目标模型的透明性,将攻击方法分为黑盒攻击和白盒攻击。同时,我们将防御方法分为提示级防御和模型级防御。

2024-09-27 11:00:00 14

原创 A Closer Look into Mixture-of-Experts in Large Language Models

专家混合(MoE)因其独特的属性和卓越的性能而受到越来越多的关注,尤其是在语言任务方面。通过稀疏地激活每个token的参数子集,MoE 架构可以在不牺牲计算效率的情况下增加模型大小,从而在性能和训练成本之间实现更好的权衡。然而,MoE的底层机制仍缺乏进一步的探索,其模块化程度也存在疑问。在本文中,我们初步尝试了解基于 MoE 的大型语言模型的内部工作原理。具体来说,我们全面研究了最近三个基于 MoE 的模型的参数和行为特征,并揭示了一些有趣的观察结果,包括(1)神经元的行为就像细粒度的专家一样。

2024-09-26 10:49:12 307

原创 Explicit Inductive Inference using Large Language Models

据报道,大型语言模型 (LLM) 在推理任务上存在不良证明偏差:当被要求预测前提 P 是否包含假设 H 时,LLM 倾向于使用脱离上下文的假设 H,而不是考虑 P 所包含的 H 的条件真实性。H 作为脆弱代理的真值标签。在本文中,我们提出了一种利用这种偏差进行显式归纳推理的管道。我们的管道使用LLM将前提转换为一组经过验证的替代方案,然后汇总派生的新蕴涵查询的答案以支持原始推理预测。在定向谓词蕴涵基准上,我们证明,通过应用这个简单的管道,我们可以提高LLM在推理方面的整体性能,并大大减轻其证明偏差的影响。

2024-09-26 10:02:47 242

原创 Claim Verification in the Age of Large Language Models: A Survey

互联网上可用的大量且不断增加的数据,加上手动索赔和事实验证的繁重任务,激发了人们对开发自动索赔验证系统的兴趣。1 已经提出了几种深度学习和基于变压器的模型多年来这个任务。随着大型语言模型 (LLM) 的引入及其在多个 NLP 任务中的卓越性能,我们看到基于 LLM 的声明验证方法激​​增,以及检索增强生成 (RAG) 等新颖方法的使用。在本次调查中,我们全面介绍了最近使用法学硕士的索赔验证框架。我们详细描述了这些框架中使用的声明验证管道的不同组件,包括常见的检索、提示和微调方法。

2024-09-26 09:45:18 82

原创 Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization

摘要1 引言2 文献综述3 方法4 实验5 结果与分析6 结论7 局限性在数字文本以前所未有的速度激增的时代,高效的摘要工具变得不可或缺。虽然大型语言模型 (LLM) 已成功应用于各种 NLP 任务,但它们在提取文本摘要中的作用仍未得到充分探索。本文介绍了 EYEGLAXS(用于提取摘要的简单而高效的大型语言模型),这是一个利用 LLM(特别是 LLAMA27B 和 ChatGLM2-6B)对长文本文档进行提取摘要的框架。

2024-09-25 09:40:44 94

原创 LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models

日志是无处不在的数字足迹,在系统诊断、安全分析和性能优化中发挥着不可或缺的作用。从日志中提取可操作的见解在很大程度上取决于日志解析过程,该过程将原始日志转换为结构化格式以供下游分析。然而,当代系统的复杂性和日志的动态特性对现有的自动解析技术提出了重大挑战。大型语言模型(LLM)的出现提供了新的视野。凭借其广泛的知识和情境能力,LLM在各种应用中都具有变革性。在此基础上,我们介绍了LogParser LLM,这是一种集成了LLM功能的新型日志解析器。

2024-09-25 09:33:03 468

原创 Performance Law of Large Language Models

在缩放定律信念的指导下,大型语言模型(LLM)近年来取得了令人印象深刻的表现。然而,缩放定律仅给出损失的定性估计,其受到模型架构、数据分布、分词器和计算精度等多种因素的影响。因此,估计LLM在不同训练环境下的真实表现而不是损失可能在实际开发中非常有用。在本文中,我们提出了一个名为“性能定律”的经验方程来直接预测LLM的MMLU 分数,这是一种广泛使用的指标,用于指示LLM在现实世界对话和应用中的一般能力。

2024-09-24 11:02:52 19

原创 Improving Factuality in Large Language Models via Decoding-Time Hallucinatory

尽管其能力非凡,大型语言模型(LLM)很容易生成与可验证事实相矛盾的响应,即不忠实的幻觉内容。现有的工作通常集中在优化模型参数或编辑语义表示,这会损害目标LLM的内部事实知识。此外,幻觉通常在下游任务中表现出多方面的模式,限制了模型跨任务的整体性能。在本文中,我们提出了一种比较器驱动的解码时间(CDT)框架来减轻响应幻觉。首先,我们利用多任务微调样本构建幻觉和真实的比较器。在这种情况下,我们提出了一种指令原型引导的专家混合策略,以增强相应比较器在不同任务指令中捕获不同幻觉或真实模式的能力。

2024-09-24 09:34:18 17

原创 Break the Sequential Dependency of LLM Inference Using LOOKAHEAD DECODING

大型语言模型(LLM)的自回归解码是内存带宽受限的,导致高延迟和现代加速器并行处理能力的严重浪费。现有的加速LLM解码的方法通常需要一个草稿模型(例如推测解码),这很难获得,也无法推广。本文介绍了LOOKAHEAD DECODING,这是一种精确的并行解码算法,可以加速LLM解码,而不需要辅助模型或数据存储。它允许按步骤交易日志(FLOP)来减少总解码步骤的数量,在单个或多个现代加速器上更具并行性,并且与并发内存高效注意力(例如FlashAttention)兼容。

2024-09-23 10:39:25 105

原创 Pruning Large Language Models with Semi-Structural Adaptive Sparse Training

大型语言模型(LLM)在各种复杂任务中的巨大成功在很大程度上依赖于其巨大的规模,由于其大量的内存消耗,这给模型部署带来了挑战。最近,许多研究尝试使用一次性剪枝方法来压缩 LLM。然而,这些方法在复杂的语言理解任务上通常会出现相当大的性能下降,这使人们对LLM中剪枝的可行性产生了质疑。为了解决这个问题,我们提出了一种通过再训练对半结构化稀疏模型进行修剪的管道,称为自适应稀疏训练器(AST)。

2024-09-23 09:39:36 336

原创 CRITIC-COT: BOOSTING THE REASONING ABILITIES OF LARGE LANGUAGE MODEL VIA CHAIN-OFTHOUGHTS CRITIC

自我批评已成为提高LLM推理能力的重要机制。然而,目前的方法主要涉及基本提示,未经进一步训练,往往过于简单化,导致准确性有限。而且,缺乏对LLM批评能力与其任务解决绩效之间关系的深入研究。为了解决这些问题,我们提出了 Critic-CoT,这是一种新颖的框架,通过逐步的 CoT 推理格式和远程监督数据构建,将LLM推向类似 System-2 的批评家能力,而不需要人工注释。

2024-09-23 09:33:50 106

原创 Leveraging Large Language Models for Enhanced Process Model Comprehension

在业务流程管理 (BPM) 中,有效理解流程模型至关重要,但也带来了重大挑战,特别是当组织规模扩大和流程变得更加复杂时。本文介绍了一种新颖的框架,利用大型语言模型 (LLM) 的高级功能来增强复杂流程模型的可解释性。我们提出了将业务流程模型抽象为法学硕士可以访问的格式的不同方法,并且我们实施了专门设计用于在我们的框架内优化法学硕士绩效的高级提示策略。此外,我们还提供了一个工具 AIPA,它实现了我们提出的框架并允许对话式流程查询。

2024-09-22 10:37:29 114

原创 Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

大型语言模型 (LLM) 具有先进的金融应用,但它们通常缺乏足够的金融知识,并且难以处理涉及表格和时间序列数据等多模态输入的任务。为了解决这些限制,我们引入了 Open-FinLLM,这是一系列金融 LLM。我们从 FinLLaMA 开始,它在 520 亿个token金融语料库上进行了预训练,结合文本、表格和时间序列数据来嵌入全面的金融知识。然后,FinLLaMA 使用 573K 财务指令进行指令微调,形成 FinLLaMA 指令,从而提高任务性能。

2024-09-22 09:57:41 92

原创 A SURVEY ON FAIRNESS OF LARGE LANGUAGE MODELS IN E-COMMERCE: PROGRESS, APPLICATION, AND CHALLENGE

这项调查探讨了大型语言模型 (LLM) 在电子商务中的公平性,研究了它们的进展、应用和面临的挑战。LLM 已成为电子商务领域的关键,提供创新解决方案并增强客户体验。这项工作对 LLM 在电子商务中的应用和挑战进行了全面调查。本文首先介绍了在电子商务中使用 LLM 的关键原则,详细介绍了根据特定需求定制这些模型的预训练、微调和提示过程。然后,它探讨了 LLM 在电子商务中的各种应用,包括产品评论,它们综合和分析客户反馈;产品推荐,他们利用消费者数据推荐相关商品;产品信息翻译,增强全球可访问性;

2024-09-21 23:19:33 155

原创 A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers

大型语言模型 (LLM) 的快速发展展示了自然语言处理方面的卓越多语言能力,吸引了全球学术界和工业界的关注。为了减少潜在的歧视并提高不同语言用户组的整体可用性和可访问性,语言公平技术的发展非常重要。尽管 LLM 取得了突破,但对多语言场景的调查仍然不足,需要进行全面调查以总结最近的方法、发展、局限性和潜在解决方案。为此,我们提供了一项关于多语言场景中 LLM 利用率的多角度调查。我们首先重新思考以前和现在关于预训练语言模型的研究之间的过渡。

2024-09-21 23:16:04 101

原创 How do Large Language Models Navigate Conflicts between Honesty and Helpfulness?

在日常沟通中,人们经常接近真相——例如,四舍五入或省略细节——以最大限度地帮助听众。大型语言模型(LLM)是如何处理这种微妙的权衡的?为了解决这个问题,我们使用旨在表征人类行为的心理模型和实验来分析LLM。我们测试了一系列LLM,并探讨了人类偏好或推理时间推理的优化如何影响这些权衡。我们发现,从人类反馈中强化学习可以提高诚实和乐于助人的能力,而思维提示链使LLM倾向于帮助而非诚实。最后,GPT-4 Turbo演示了类人响应模式,包括对会话框架和听众决策上下文的敏感性。

2024-09-20 17:03:31 43 1

原创 Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling

从强语言模型(LM)中训练高质量的合成数据是提高LM推理性能的常见策略。在这项工作中,我们重新审视了这种策略在固定推理预算(例如FLOP)下是否是计算最优的。为此,我们研究了使用更强但更昂贵的(SE)模型与较弱但更便宜的(WC)模型生成合成数据之间的权衡。我们评估了三个关键指标的生成数据:覆盖率、多样性和假阳性率,并表明来自WC模型的数据可能具有更高的覆盖率和多样性,但也表现出更高的假阳性率。

2024-09-20 10:37:15 30

原创 Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

使LLM能够通过使用更多的测试时间计算来提高其输出,是构建可以在开放式自然语言上运行的一般自我改进代理的关键一步。在本文中,我们研究了LLM中推理时间计算的缩放,重点回答了一个问题:如果允许LLM使用固定但非微不足道的推理时间计算量,它在具有挑战性的提示下能提高多少性能?回答这个问题不仅对LLM的可实现性能有影响,而且对LLM预训练的未来以及如何权衡推理时间和预训练计算也有影响。尽管它很重要,但很少有研究试图了解各种测试时间推理方法的缩放行为。此外,目前的工作在很大程度上为其中一些策略提供了负面结果。

2024-09-20 10:16:46 218

原创 Large Language Monkeys: Scaling Inference Compute with Repeated Sampling

扩展用于训练语言模型的计算量极大地提高了它们的能力。然而,当涉及到推理时,我们通常会将计算量限制为每个问题只能尝试一次。在这里,我们通过增加生成的样本数量来探索推理计算作为缩放的另一个轴。在多个任务和模型中,我们观察到覆盖率——任何尝试解决的问题的比例——随着样本数量的增加而增加,超过四个数量级。在编码和形式证明等领域,所有答案都可以自动验证,覆盖率的增加直接转化为性能的提高。

2024-09-20 09:55:59 257

原创 An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models

大型语言模型(LLM)在模型大小和计算预算方面的最佳训练配置已经得到了广泛的研究。但是,如何在推理过程中优化配置LLM还没有得到足够深入的探索。我们研究计算最优推理:设计模型和推理策略,以最佳地权衡额外的推理时间计算以提高性能。作为理解和设计计算最优推理方法的第一步,我们评估了贪婪搜索、多数投票、最佳N、加权投票等多种推理策略及其变体在两种不同的树搜索算法上的有效性和计算效率,涉及不同的模型大小和计算预算。我们发现,具有新颖树搜索算法的较小语言模型通常可以实现帕累托最优权衡。

2024-09-19 16:40:59 131

原创 Chain of Thought Empowers Transformers to Solve Inherently Serial Problems

指示模型生成一系列中间步骤,即思维链(CoT),是提高大型语言模型(LLM)在算术和符号推理任务中的准确性的一种非常有效的方法。然而,CoT背后的机制尚不清楚。这项工作通过表现力的视角,为CoT对仅解码器Transformer的强大功能提供了理论上的理解。从概念上讲,CoT使模型能够执行固有的串行计算,这是Transformer所缺乏的,尤其是在深度较低的情况下。在给定输入长度n的情况下,之前的研究表明,具有有限精度poly(n)嵌入大小的恒定深度Transformer只能解决没有CoT的TC0。

2024-09-19 16:30:48 71

原创 A New Era in Computational Pathology: A Survey on Foundation and Vision-Language Models

深度学习的最新进展彻底改变了计算病理学 (CPath) 领域,通过将基础模型 (FM) 和视觉语言模型 (VLM) 集成到病理学家的评估和决策过程中,反过来又改变了病理学家的诊断工作流程。FM 通过学习表示空间来克服 CPath 中现有深度学习方法的局限性,该表示空间可以在没有明确监督的情况下适应各种下游任务。VLM 允许将用自然语言编写的病理报告用作丰富的语义信息源,以改进现有模型并以自然语言形式生成预测。在本次调查中,对 CPath 中 FM 和 VLM 的最新创新进行了全面、系统的概述。

2024-09-19 15:05:17 25

原创 Recent Advances in Generative AI and Large Language Models: Current Status, Challenges

生成人工智能 (AI) 和大型语言模型 (LLM) 的出现标志着自然语言处理 (NLP) 的新时代,引入了前所未有的能力,正在彻底改变各个领域。本文探讨了这些尖端技术的现状,展示了它们的显着进步和广泛的应用。我们的论文有助于对生成式人工智能和LLM不断发展的领域中的技术基础、实际应用和新挑战提供全面的视角。我们认为,了解人工智能系统的生成能力和LLM的具体背景对于研究人员、从业者和政策制定者共同塑造这些技术以负责任和道德的方式融入各个领域至关重要。

2024-09-19 11:19:09 321

原创 A Law of Next-Token Prediction in Large Language Models

大型语言模型 (LLM) 已广泛应用于各个应用领域,但其黑盒性质对理解这些模型如何在内部处理输入数据以进行预测提出了重大挑战。在本文中,我们引入了一种精确的定量定律,该定律通过预训练的 LLM 中的中间层来控制上下文化token嵌入的学习,以进行下一个token预测。我们的研究结果表明,从最低层到最高层,每一层都对提高预测准确性做出了同等贡献——这是在基于 Transformer、RWKV 和 Mamba 等架构构建的各种开源 LLM 中观察到的普遍现象。

2024-09-19 10:59:25 33

原创 Analysis of Code and Test-Code generated by Large Language Models

ChatGPT 和 Copilot 等大型语言模型 (LLM) 正在通过自动生成代码来改变软件开发,并且可以说可以实现快速原型设计、支持教育并提高生产力。因此,生成的代码的正确性和质量应该与手动编写的代码相当。为了评估法学硕士在生成高质量正确代码方面的现状,我们使用 ChatGPT 和 Copilot 进行了对照实验:我们让法学硕士用 Java 和 Python 生成简单的算法以及相应的单元测试,并评估正确性和质量(覆盖率) )生成的(测试)代码。

2024-09-19 10:44:36 148

原创 DSPY: COMPILING DECLARATIVE LANGUAGE MODEL CALLS INTO SELF-IMPROVING PIPELINES

ML 社区正在快速探索促进语言模型 (LM) 并将其堆叠到解决复杂任务的管道中的技术。不幸的是,现有的 LM 管道通常使用硬编码的“提示模板”来实现,即通过反复试验发现的冗长字符串。为了采用更系统的方法来开发和优化 LM 管道,我们引入了 DSPy,这是一种将 LM 管道抽象为文本转换图的编程模型,即通过声明性模块调用 LM 的命令式计算图。DSPy 模块是参数化的,这意味着它们可以学习(通过创建和收集演示)如何应用提示、微调、增强和推理技术的组合。

2024-09-18 17:40:22 31

原创 D2LLM: Decomposed and Distilled Large Language Models for Semantic Search

语义搜索的关键挑战是创建准确且高效的模型来精确定位查询的相关句子。虽然 BERT 风格的双编码器通过预先计算的嵌入在效率方面表现出色,但它们经常会错过搜索任务中的细微差别。相反,采用交叉编码器设计的 GPT 式 LLM 可以捕获这些细微差别,但计算量较大,阻碍了实时应用。在本文中,我们提出了 D2LLM(用于语义搜索的分解和蒸馏 LLM),它结合了两个领域的优点。我们将交叉编码器分解为与多头注意力池和交互仿真模块集成的高效双编码器,实现了细致入微的理解和预可计算性。

2024-09-18 14:58:51 31

原创 Planning In Natural Language Improves LLM Search For Code Generation

虽然扩展训练计算已经导致大型语言模型 (LLM) 的显着改进,但扩展推理计算尚未产生类似的收益。我们假设核心缺失部分是缺乏多样化的 LLM 输出,由于模型重复采样高度相似但不正确的生成,导致搜索效率低下。我们凭经验证明,可以通过搜索用自然语言解决问题的候选计划来缓解这种多样性的缺乏。基于这一见解,我们提出了 PLANSEARCH,这是一种新颖的搜索算法,它在 HumanEval+、MBPP+ 和 LiveCodeBench(竞争性编码的无污染基准)上显示出强大的结果。

2024-09-18 14:52:11 65

原创 Imitating Language via Scalable Inverse Reinforcement Learning

大多数语言模型训练都建立在模仿学习的基础上。它涵盖了预训练、监督微调,并影响了从人类反馈进行强化学习 (RLHF) 的起始条件。用于下一个token预测的最大似然估计 (MLE) 的简单性和可扩展性使其成为主导范式。然而,更广泛的模仿学习领域可以更有效地利用自回归生成的基础顺序结构。我们专注于研究逆向强化学习 (IRL) 对模仿的看法,提取奖励并直接优化序列而不是单个token的可能性,并评估其对微调大型语言模型的好处。我们提供了一个新角度,将逆软 Q 学习重新表述为 MLE 的时间差异正则化扩展。

2024-09-18 11:26:31 103

C语言编程实例100题

里面有C语言程序示例,没有100个,但是个个讲的都很好,对于初学者帮助很大。。

2012-03-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除