大模型解码室带你深入每个模型的故事,体验解码的冒险。从理论到实践,记录数据到推理的每一步,分享大模型生态的实战落地与最新动态!
1.T2Vid:将长文本转换为多图像是视频大语言模型的催化剂
标题:《T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs》
**机构:**USTC,NJU
**关键词:**视频大语言模型、数据增强、图像-语言模型、指令多样性
**作者:**Shukang Yin,Chaoyou Fu
**推荐理由:**论文提出 T2Vid 方法合成类似视频的样本以增强视频大语言模型训练中的指令多样性,提升模型性能,为视频理解任务提供了新的思路。
**摘要:**多模态大语言模型在图像领域的成功引起了研究界的广泛关注。受先前成功经验的启发,研究人员最近探索将其成功扩展到视频理解领域。除了从头开始训练,一种有效的方法是利用预训练的图像大语言模型,这导致了两种主流方法,即零样本推理和使用视频数据进行进一步微调。在这项工作中,对这些方法的研究收获了一种有效的数据增强方法。首先更深入地研究了零样本推理方法,发现了两个局限性,即泛化能力有限和缺乏时间理解能力。因此,进一步研究了微调方法,发现当简单地使用所有视频数据样本时学习效率较低,这可归因于指令多样性的缺乏。针对这个问题,开发了一种称为 T2Vid 的方法来合成类似视频的样本,以丰富训练语料库中的指令多样性。整合这些数据实现了一种简单而高效的训练方案,仅使用 15%的样本大小就能达到与使用完整视频数据集相当甚至更优的性能。同时,发现该方案可以在不使用长视频样本进行训练的情况下提高对长视频的理解能力。希望这项研究能激发更多关于使用多模态大语言模型进行视频理解和高质量数据整理的思考。
**论文地址:**http://arxiv.org/pdf/2411.19951v1
2.关键令牌很重要:令牌级对比估计增强语言模型的推理能力
标题:《Critical Tokens Matter: Token-Level Contrastive Estimation Enhence LLM’s Reasoning Capability》
**机构:**Tsinghua University,Tencent AI Lab
**关键词:**Large Language Models,reasoning tasks,critical tokens,contrastive estimation,cDPO
**作者:**Zicheng Lin,Tian Liang
**推荐理由:**论文提出了 cDPO 方法,通过对比估计识别关键令牌并进行令牌级奖励,有效提升了大语言模型的推理能力。
**摘要:**本文探索了单个令牌对推理任务最终结果的影响,确定了大语言模型中存在会导致错误推理轨迹的“关键令牌”,并提出了一种新方法 cDPO,通过对比估计自动识别关键令牌,并在对齐过程中对其进行令牌级奖励。实验结果表明,该方法在 GSM8K 和 MATH500 基准测试中优于其他基线策略。
**论文地址:**http://arxiv.org/pdf/2411.19943v1
3.SIMS:利用真实世界脚本规划模拟人类与场景的交互
标题:《SIMS: Simulating Human-Scene Interactions with Real World Script Planning》
**机构:**The University of Hong Kong、Shanghai AI Laboratory
**关键词:**human-scene interaction, script planning, dual-aware control policy, finite state machine
**作者:**Wenjia Wang、Liang Pan
**推荐理由:**本文提出了一个综合框架 SIMS,利用大型语言模型作为规划器和双重感知控制策略作为控制器,实现了长期人类与场景交互的模拟,具有实际且有效的结果。
**摘要:**模拟长期的人类与场景交互是一项具有挑战性但又引人入胜的任务。先前的工作在基于物理动画的长期人类场景交互生成方面尚未有效解决具有详细叙述的问题。本文介绍了一种用于长期物理合理的人类与场景交互的规划和控制的新框架。一方面,互联网上有大量具有时尚人体运动或与场景交互的电影和节目,为脚本规划提供了丰富的数据来源。另一方面,大型语言模型(LLM)可以理解和生成逻辑故事情节。这促使我们将两者结合起来,使用基于 LLM 的管道从视频中提取脚本,然后利用 LLM 模仿和创建新脚本,捕捉复杂的时间序列人类行为以及与环境的交互。通过这种方式,我们利用一种双重感知策略,实现语言理解和场景理解,以在上下文和空间约束下引导角色运动。为了便于训练和评估,我们贡献了一个包含从真实世界视频中提取的各种运动序列的综合规划数据集,并利用大型语言模型对其进行扩展。我们还从现有运动学数据集中收集并重新标注运动片段,以使我们的策略学习各种技能。大量实验证明了我们的框架在多功能任务执行方面的有效性以及在各种场景中的泛化能力,与现有方法相比表现出显著增强的性能。我们的代码和数据将很快公开。
**论文地址:**http://arxiv.org/pdf/2411.19921v1
4.PDDLFuse:一种生成多样化规划领域的工具
标题:《PDDLFuse: A Tool for Generating Diverse Planning Domains》
**机构:**University of South Carolina
**关键词:**planning domains, domain generation, PDDLFuse, domain-independent planners
**作者:**Vedant Khandelwal, Amit Sheth
**推荐理由:**论文介绍了PDDLFuse工具,用于生成多样化规划领域,可用于训练规划基础模型并测试新规划算法。
**摘要:**本文提出了一种名为PDDLFuse的工具,旨在生成多样化的规划领域,以用于训练更强大的规划基础模型。传统的规划领域创建主要依赖人工实现,限制了可用领域的规模和多样性。而PDDLFuse通过融合现有领域并调整生成器参数,能够生成复杂多样的规划领域,为规划研究提供了有价值的资源,有助于测试和改进新的规划算法。
**论文地址:**http://arxiv.org/pdf/2411.19886v1
5.LUMIA:利用线性探测进行单模态和多模态成员推理攻击
标题:《LUMIA: Linear probing for Unimodal and MultiModal Membership Inference A!acks leveraging internal LLM states》
**机构:**Universidad Carlos III de Madrid,Institut Politechnique de Paris,Inria
**关键词:**Large Language Models,Large Multimodal Models,Membership Inference Attacks,Linear Probes
**作者:**Luis Ibanez-Lissen,Lorena Gonzalez-Manzano
**推荐理由:**论文提出了 LUMIA 方法,利用线性探针检测成员推理攻击,在单模态和多模态任务中表现出色,为大型语言模型的安全性研究提供了新的思路。
**摘要:**近年来,大型语言模型(LLMs)的广泛应用引发了人们对成员推理攻击(Membership Inference Attacks,MIAs)的担忧。本文提出了一种利用线性探针(Linear Probes,LPs)检测成员推理攻击的方法,即 LUMIA。该方法通过检查 LLMs 的内部激活来检测 MIAs,在单模态和多模态任务中均取得了较好的效果。
**论文地址:**http://arxiv.org/pdf/2411.19876v1
6.AIDetx:一种基于压缩的机器学习生成文本识别方法
标题:《AIDetx: a compression-based method for identification of machine-learning generated text》
**机构:**IEETA/LASI - Institute of Electronics and Informatics Engineering of Aveiro、DETI - Department of Electronics, Telecommunications and Informatics
**关键词:**机器学习生成文本识别、数据压缩、有限上下文模型
**作者:**Leonardo Almeida、Pedro Rodrigues
**推荐理由:**论文介绍了 AIDetx 方法,利用数据压缩技术识别机器学习生成文本,具有高准确性、可解释性和计算效率。
**摘要:**本文介绍了 AIDetx,一种使用数据压缩技术检测机器生成文本的新方法。传统方法如深度学习分类器通常存在计算成本高和可解释性有限的问题。为解决这些限制,我们提出了一个基于压缩的分类框架,利用有限上下文模型(FCMs)。AIDetx 为人类撰写和人工智能生成的文本构建不同的压缩模型,根据哪个模型实现更高的压缩比来对新输入进行分类。我们在两个基准数据集上评估了 AIDetx,分别实现了超过 97%和 99%的 F1 分数,突出了其高准确性。与当前方法(如大型语言模型)相比,AIDetx 提供了更具可解释性和计算效率的解决方案,显著减少了训练时间和硬件要求(例如,不需要 GPU)。
**论文地址:**http://arxiv.org/pdf/2411.19869v1
7.反向思维让大型语言模型成为更强的推理者
标题:《Reverse Thinking Makes LLMs Stronger Reasoners》
**机构:**UNC Chapel Hill,Google Cloud AI Research
**关键词:**反向思维、大型语言模型、推理、数据增强、学习目标
**作者:**Justin Chih-Yao Chen,Zifeng Wang
**推荐理由:**论文提出的 Reverse-Enhanced Thinking 框架通过数据增强和多任务学习目标使大型语言模型具备更强的反向思维推理能力,在多个数据集上表现出色。
**摘要:**反向思维在人类推理过程中起着至关重要的作用。为了使大型语言模型(LLMs)能够进行反向思维,我们引入了 Reverse-Enhanced Thinking(REV THINK)框架,该框架由数据增强和学习目标组成。REV THINK 通过从教师模型收集结构化的正向和反向推理来增强数据集,并使用三个目标以多任务学习的方式训练较小的学生模型。实验结果表明,REV THINK 在各种推理任务中均表现出色,具有样本效率、泛化性和对现有方法的互补优势。
**论文地址:**http://arxiv.org/pdf/2411.19865v1
8.跨域推荐与大型语言模型
标题:《Cross-Domain Recommendation Meets Large Language Models》
**机构:**George Mason University
**关键词:**Cross-Domain Recommendation · Large Language Models
**作者:**Ajay Krishna Vajjala, Dipak Meher
**推荐理由:**论文探讨了利用大型语言模型进行跨域推荐,通过实验证明其在多种场景下能优于传统方法,为推荐系统领域提供了新的思路。
**摘要:**跨域推荐(CDR)已成为解决单域推荐系统面临的冷启动问题的一种有前途的解决方案。然而,现有的 CDR 模型依赖于复杂的神经架构、大型数据集和大量的计算资源,在数据稀缺的场景或需要简单性的情况下效果较差。在这项工作中,我们利用大型语言模型(LLM)的推理能力,并探索它们在多个域对的 CDR 领域中的性能。我们引入了两种针对 CDR 设计的新型提示,并证明了在有效提示下,LLM 在各种指标和域组合的评级预测和排序任务中优于最先进的 CDR 基线。这项工作弥合了 LLM 与推荐系统之间的差距,展示了它们作为有效的跨域推荐器的潜力。
**论文地址:**http://arxiv.org/pdf/2411.19862v1
9.社交媒体敏感内容分类:一种整体资源与评估
标题:《Sensitive Content Classification in Social Media: A Holistic Resource and Evaluation》
**机构:**Cardiff University,University of Mannheim
**关键词:**敏感内容分类、社交媒体、数据集、语言模型
**作者:**Dimosthenis Antypas,Indira Sen
**推荐理由:**论文提出了针对社交媒体敏感内容分类的统一数据集,并对不同模型在该数据集上的性能进行了评估。
**摘要:**大数据集中敏感内容的检测对于确保共享和分析的数据不含有害材料至关重要。然而,当前的审核工具(如外部 API)在定制化、不同敏感类别准确性以及隐私问题方面存在局限性。现有的数据集和开源模型主要集中在有毒语言上,在检测其他敏感类别(如药物滥用或自残)方面存在差距。本文提出了一个针对六种敏感类别的统一数据集,包括冲突性语言、亵渎性语言、性露骨内容、毒品相关内容、自残和垃圾信息。通过使用一致的检索策略和指南收集和标注数据,我们解决了以往局部研究的不足。分析表明,在这个新数据集上微调大型语言模型在检测性能上比现成的模型(如 LLaMA)有显著提升,甚至比专有的 OpenAI 模型性能高出 10 - 15%。
**论文地址:**http://arxiv.org/pdf/2411.19832v1
10.高级系统集成:分析用于检索增强生成的 OpenAPI 分块
标题:《Advanced System Integration: Analyzing OpenAPI Chunking for Retrieval-Augmented Generation》
**机构:**University of Stuttgart,Sapienza Università di Roma
**关键词:**Retrieval augmented generation · Large language models · OpenAPI · Endpoint discovery · RestBench.
**作者:**Robin D. Pesl,Jerin G. Mathew
**推荐理由:**论文探讨了如何使用检索增强生成进行端点发现以及对 OpenAPI 的分块处理,以减少输入令牌长度并提高检索性能,具有一定的创新性和实用价值。
**摘要:**集成多个子系统对于创建高级信息系统至关重要。在信息系统生命周期中整合动态环境时主要会出现困难,例如在设计时不存在的服务。传统方法是使用注册表提供系统端点的 API 文档。大型语言模型已被证明能够基于此文档自动创建系统集成,但由于输入令牌限制,需要简洁的输入,特别是对于全面的 API 描述。目前尚不清楚如何最好地预处理这些 API 描述。在这项工作中,我们分析了用于端点发现的检索增强生成以及对实际 OpenAPI 的分块处理,以减少输入令牌长度同时保留最相关信息。为了进一步减少组合提示的输入令牌长度并改善端点检索,我们提出了一种发现代理,它仅接收最相关端点的摘要,并根据需要检索规范细节。我们使用 RestBench 基准评估用于端点发现的检索增强生成,首先针对不同的分块可能性和参数测量端点检索的召回率、精度和 F1 分数。然后,我们使用相同的测试集评估发现代理。通过我们的原型,我们展示了如何成功地使用检索增强生成进行端点发现以减少令牌计数。虽然召回率、精度和 F1 值较高,但仍需要进一步研究以检索所有必需的端点。我们的实验表明,对于预处理,基于大型语言模型和特定格式的方法优于朴素分块方法。依赖代理进一步增强了这些结果,因为代理将任务拆分为多个细粒度子任务,提高了令牌计数、精度和 F1 分数方面的整体检索增强生成性能。
**论文地址:**http://arxiv.org/pdf/2411.19804v1
11.INCLUDE:利用区域知识评估多语言语言理解
标题:《INCLUDE: EVALUATING MULTILINGUAL LANGUAGE UNDERSTANDING WITH REGIONAL KNOWLEDGE》
**机构:**EPFL, Cohere For AI
**关键词:**多语言语言模型、区域知识、评估基准、INCLUDE
**作者:**Angelika Romanou, Negar Foroutan
**推荐理由:**论文提出了INCLUDE评估基准,以测量多语言大型语言模型在不同区域背景下的能力,对多语言模型的发展和评估具有重要意义。
**摘要:**大型语言模型在不同语言之间的性能差异阻碍了它们在许多地区的有效部署,抑制了生成式人工智能工具在许多社区中的潜在经济和社会价值。然而,由于缺乏除英语以外的高质量评估资源,许多语言的功能性大型语言模型的发展受到了瓶颈。此外,当前多语言基准构建的实践往往翻译英语资源,忽略了多语言系统将使用的环境的区域和文化知识。在这项工作中,我们构建了一个包含来自本地考试资源的197,243个问答对的评估套件,以测量多语言大型语言模型在各种区域背景下的能力。我们的新资源INCLUDE是一个涵盖44种书面语言的以知识和推理为中心的综合基准,用于评估多语言大型语言模型在实际部署的语言环境中的性能。我们将INCLUDE公开以供公众使用。
**论文地址:**http://arxiv.org/pdf/2411.19799v1
12.感知型 3D 语言助手:PerLA
标题:《PerLA : Perceptive 3D language assistant》
**机构:**Fondazione Bruno Kessler, Italy;JKU Linz, Austria
**关键词:**3D language assistant,perceptive scene encoder,local-global representation aggregation,Hilbert curve
**作者:**Guofeng Mei,Wei Lin
**推荐理由:**论文提出的 PerLA 通过创新的点云处理方法,在 3D 语言理解任务中表现出色,为 3D 语言助手的发展提供了新的思路。
**摘要:**使大型语言模型(LLM)能够理解 3D 物理世界是一个新兴但具有挑战性的研究方向。当前处理点云的策略通常会对场景进行下采样或划分为较小的部分进行单独分析,但这两种方法都有可能丢失关键的局部细节或全局上下文信息。本文介绍了 PerLA,一种能够感知细节和上下文的 3D 语言助手,通过一种新颖的算法,在不增加表示维度或标记数量的情况下,保留点云的局部性和全局信息,提高了 3D 语言助手在感知点云中更精细细节的能力,从而更准确地执行下游任务。
**论文地址:**http://arxiv.org/pdf/2411.19774v1
13.LongVALE:迈向长视频时间感知全模态感知的视觉-音频-语言-事件基准
标题:《LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos》
**机构:**Southern University of Science and Technology, University of Birmingham
**关键词:**LongVALE,全模态长视频理解,视频大语言模型,多模态事件边界检测,事件字幕生成
**作者:**Tiantian Geng, Jinrui Zhang
**推荐理由:**论文提出了 LongVALE 基准,通过自动管道生成高质量全模态长视频注释,为多模态视频理解提供了新的基准和方法,对该领域研究具有重要价值。
**摘要:**尽管视频理解取得了显著进展,但大多数努力仍局限于粗粒度或仅视觉的视频任务。现实世界的视频包含全模态信息(视觉、音频和语音)以及一系列构成连贯故事情节的事件。缺乏具有细粒度事件注释的多模态视频数据以及手动标注的高成本是全面全模态视频感知的主要障碍。为了解决这一差距,本文提出了一个自动管道,包括高质量的多模态视频过滤、语义连贯的全模态事件边界检测和跨模态相关感知的事件字幕生成。通过这种方式,本文提出了 LongVALE,这是第一个具有精确时间边界和详细关系感知字幕的全模态事件理解基准,包含 8400 个高质量长视频中的 10.5 万个全模态事件。此外,本文构建了一个基线,首次利用 LongVALE 使视频大语言模型能够进行全模态细粒度时间视频理解。广泛的实验证明了 LongVALE 在推进全面多模态视频理解方面的有效性和巨大潜力。
**论文地址:**http://arxiv.org/pdf/2411.19772v1
14.双重风险最小化:微调零样本模型的下一级鲁棒性
标题:《Dual Risk Minimization: Towards Next-Level Robustness in Fine-tuning Zero-Shot Models》
**机构:**The Hong Kong University of Science and Technology,Huawei
**关键词:**dual risk minimization,zero-shot models,fine-tuning,robustness
**作者:**Kaican Li,Weiyan Xie
**推荐理由:**论文提出双重风险最小化方法(DRM),结合经验风险最小化与最坏情况风险最小化,提升了零样本模型微调后的鲁棒性,在多个基准测试中取得显著成果。
**摘要:**基础模型的微调往往会损害其对分布变化的鲁棒性。为了解决这个问题,大多数鲁棒微调方法旨在保留预训练特征。然而,并非所有预训练特征都是鲁棒的,并且这些方法在很大程度上对保留哪些特征并不明确。本文提出了双重风险最小化(DRM),它结合了经验风险最小化和最坏情况风险最小化,以更好地保留下游任务的核心特征。特别是,我们利用语言大模型生成的核心特征描述来诱导基于核心的零样本预测,然后将其作为代理来估计最坏情况风险。DRM平衡了模型鲁棒性的两个关键方面:预期性能和最坏情况性能,在各种现实世界基准上建立了新的最先进水平。DRM显著提高了 CLIP ViT-L/14@336 在 ImageNet(75.9→77.1)、WILDS-iWildCam(47.1→51.8)和 WILDS-FMoW(50.7→53.1)上的分布外性能;为鲁棒微调开辟了新途径。
**论文地址:**http://arxiv.org/pdf/2411.19757v1
15.了解你的检索增强生成系统:评估 RAG 系统的数据集分类和生成策略
标题:《Know Your RAG: Dataset Taxonomy and Generation Strategies for Evaluating RAG Systems》
**机构:**IBM Research Paris-Saclay、IBM Research Zurich
**关键词:**Retrieval Augmented Generation、RAG evaluation、dataset generation、LLMs
**作者:**Rafael Teixeira de Lima、Shubham Gupta
**推荐理由:**论文提出了评估 RAG 系统的数据集分类和生成策略,有助于解决 RAG 系统性能评估中的数据不平衡问题。
**摘要:**检索增强生成(RAG)系统是大型语言模型(LLM)在工业中的广泛应用。虽然有许多工具可帮助开发人员构建自己的系统,并使用反映系统用例的数据集在本地测量其性能,但这是一项技术挑战。本文展示了使用公共问答数据集评估检索性能可能导致非最优系统设计,常见的 RAG 数据集生成工具可能导致数据不平衡。基于通过标签对 RAG 数据集进行表征以及通过针对标签的数据生成,提出了解决方案。最后,展示了经过微调的小型 LLM 可以有效地生成问答数据集。
**论文地址:**http://arxiv.org/pdf/2411.19710v1
16.探索合成数据与人数据在多洞察多文档提取任务中的应用
标题:《MIMDE: Exploring the Use of Synthetic vs Human Data for Evaluating Multi-Insight Multi-Document Extraction Tasks》
**机构:**The Alan Turing Institute, British Library, UK; Centre for Advanced Spatial Analysis, University College London, UK
**关键词:**多洞察多文档提取、合成数据、人类数据、评估框架
**作者:**John Francis,Saba Esnaashari
**推荐理由:**论文探讨了合成数据与人数据在多洞察多文档提取任务中的应用,通过实验分析了两者的优缺点及相关性。
**摘要:**大型语言模型在文本分析任务中展现出卓越的能力,但其在复杂的实际应用中的评估仍具挑战性。本文定义了一组多洞察多文档提取(MIMDE)任务,涉及从文档语料库中提取最佳的洞察集,并将这些洞察映射回其源文档。作者开发了一个 MIMDE 的评估框架,并引入了一组互补的人类和合成数据集,以检验合成数据在大型语言模型评估中的潜力。在确定了比较提取洞察的最佳指标后,作者在两个数据集上对 20 个最先进的大型语言模型进行了基准测试。分析发现,大型语言模型在两个数据集上提取洞察的能力之间存在很强的相关性(0.71),但合成数据未能捕捉到文档级分析的复杂性。这些发现为合成数据在评估文本分析系统中的使用提供了关键指导,同时突出了其潜力和局限性。
**论文地址:**http://arxiv.org/pdf/2411.19689v1
17.SURE-VQA:医疗视觉问答任务中稳健性评估的系统理解
标题:《SURE-VQA: SYSTEMATIC UNDERSTANDING OF ROBUSTNESS EVALUATION IN MEDICAL VQA TASKS》
**机构:**German Cancer Research Center (DKFZ) Heidelberg, Interactive Machine Learning Group; Helmholtz Imaging, German Cancer Research Center (DKFZ), Heidelberg
**关键词:**医疗视觉问答任务、稳健性评估、大规模语言模型、精细调整方法
**作者:**Kim-Celine Kahl,Selen Erkan
**推荐理由:**本文提出了 SURE-VQA 框架用于医疗视觉问答任务的稳健性评估,通过实验研究了不同精细调整方法的性能,为该领域提供了有价值的参考。
**摘要:**视觉语言模型(VLMs)在医疗任务中有巨大潜力,如视觉问答(VQA),可作为患者和临床医生的交互式助手。然而,其在未见数据上的分布偏移的稳健性仍是安全部署的关键问题。评估这种稳健性需要一个受控的实验设置,以便系统地洞察模型的行为。本文介绍了一个名为 SURE-VQA 的新框架,围绕三个关键要求来克服当前的缺陷,并系统地分析医疗 VQA 中 VLMs 的稳健性:1. 由于合成偏移上的稳健性不一定转化为现实世界的偏移,应在 VQA 数据中固有的现实世界偏移上测量稳健性;2. 传统的令牌匹配指标往往无法捕捉潜在语义,需要使用大规模语言模型(LLMs)进行更准确的语义评估;3. 由于缺少健全性基线,模型性能往往缺乏可解释性,因此应报告有意义的基线,以评估对 VLM 的多模态影响。为了展示该框架的相关性,作者在三个医疗数据集上对各种精细调整方法的稳健性进行了研究,并揭示了几个重要发现。
**论文地址:**http://arxiv.org/pdf/2411.19688v1
18.中文网页文本 2.0:具有多维细粒度信息的大规模高质量中文网页文本
标题:《CHINESE WEB TEXT 2.0 : LARGE -S CALE HIGH -QUALITY CHINESE WEB TEXT WITH MULTI -DIMENSIONAL AND FINE -GRAINED INFORMATION》
**机构:**中国科学院自动化研究所、中国科学院大学人工智能学院
**关键词:**中文网页文本、大规模数据集、多维细粒度信息、质量评估、领域分类、毒性评估
**作者:**Wanyue Zhang、Ziyong Li
**推荐理由:**本文提出构建具有多维细粒度信息的大规模高质量中文网页文本数据集 ChineseWebText2.0 的方法,对大型语言模型研究具有重要价值。
**摘要:**在大型语言模型(LLMs)的发展过程中,预训练数据对塑造 LLMs 的能力起着关键作用。近年来,为了加速 LLMs 的研究,已经发布了几个大规模、高质量的预训练数据集。然而,随着 LLMs 的不断发展,焦点逐渐转向特定领域的能力和安全问题,使得以前的粗粒度文本不足以满足训练要求。为了解决这些挑战,本文提出了一种名为 MDFG-tool 的新工具链,用于构建具有多维细粒度信息的大规模高质量中文数据集。首先,使用手工制定的规则从原始内容中丢弃明显的噪声文本。其次,精心设计质量评估模型、领域分类器和毒性评估模型,分别对剩余的清理后数据进行评估。最后,为每个文本整合这三种细粒度信息,发布了最大的、高质量且具有细粒度标注的中文文本数据集 ChineseWebText2.0。
**论文地址:**http://arxiv.org/pdf/2411.19668v1
19.大规模资源助力端到端真实性评估
标题:《Towards End-To-End Factuality Evaluation with LLM-O ASIS》
**机构:**Babelscape, Italy;Sapienza University of Rome
**关键词:**端到端真实性评估、大型语言模型、事实性评估资源、虚假信息检测
**作者:**Alessandro Scirè;Andrei Stefan Bejgu;Simone Tedeschi;Karim Ghonim;Federico Martelli;Roberto Navigli
**推荐理由:**论文提出了 LLM-O ASIS 资源用于端到端事实性评估,为大型语言模型的真实性评估提供了有价值的方法和挑战。
**摘要:**引入了 LLM-O ASIS,这是一种大规模的端到端真实性评估资源,通过从维基百科中提取和篡改信息创建而成。包括提取原子性声明、虚假声明、生成事实和非事实文本等步骤,旨在评估文本的真实性准确性,并创建了黄金标准基准以评估模型,提出了两个任务挑战当前的大型语言模型,实验表明该资源对最先进的模型具有挑战性。
**论文地址:**http://arxiv.org/pdf/2411.19655v1
20.第三方库复用中安全性的增强——通过代码补丁分析全面检测一日漏洞
标题:《Enhancing Security in Third-Party Library Reuse -Comprehensive Detection of 1-day Vulnerability through Code Patch Analysis》
**机构:**The University of New South Wales, Delft University of Technology, Feiyu Technology International Company Ltd
**关键词:**third-party library reuse, 1-day vulnerability detection, code patch analysis
**作者:**Shangzhi Xu, Jialiang Dong
**推荐理由:**论文提出了一种用于检测第三方库复用中一日漏洞的工具 VULTURE,通过代码补丁分析提高了检测的有效性和效率。
**摘要:**如今,软件开发迅速发展以融入新功能。为了促进这种增长并为开发者在创建和更新软件时提供便利,复用开源软件(即第三方库复用)已成为最有效和高效的方法之一。然而,第三方库(TPLs)的复用实践也可能引入漏洞(称为一日漏洞),因为 TPLs 的维护较低,导致许多易受攻击的版本仍在使用。如果包含这些 TPLs 的软件未能检测到引入的漏洞并导致更新延迟,将加剧安全风险。但是,TPL 复用的复杂代码依赖关系和灵活性使得一日漏洞的检测成为一项具有挑战性的任务。为了支持开发人员在软件开发期间安全地复用 TPLs,我们设计并实现了 VULTURE,一种有效且高效的检测工具,旨在识别由易受攻击的 TPLs 复用引起的一日漏洞。
**论文地址:**http://arxiv.org/pdf/2411.19648v1
21.基于无人工标注数据的文本分类大语言模型师生框架:IPTC 新闻主题分类案例研究
标题:《LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification》
**机构:**Jožef Stefan Institute, University of Ljubljana
**关键词:**Multilingual text classification, IPTC, large language models, LLMs, news topic, topic classification, training data preparation, data annotation
**作者:**TAJA KUZMAN, NIKOLA LJUBEŠIĆ
**推荐理由:**论文提出基于大语言模型的师生框架用于新闻主题分类,研究了训练数据大小对学生模型性能的影响及模型的多语言和跨语言能力。
**摘要:**随着在线新闻故事的不断增加,对新闻进行主题分类,无论其使用何种语言,对于提高读者获取相关内容的能力都至关重要。为了应对这一挑战,我们提出了一种基于大语言模型(LLM)的师生框架,用于开发具有合理规模的多语言新闻分类模型,无需人工数据标注。该框架采用生成预训练变压器(GPT)模型作为教师模型,通过对斯洛文尼亚语、克罗地亚语、希腊语和加泰罗尼亚语的新闻文章进行自动标注,开发 IPTC 媒体主题训练数据集。教师模型在所有四种语言上都表现出较高的零样本性能。它与人类标注者的一致性与人类标注者之间的一致性相当。为了减轻每天处理数百万文本的计算限制,在 GPT 标注的数据集上对较小的类似 BERT 的学生模型进行微调。这些学生模型实现了与教师模型相当的高性能。此外,我们探讨了训练数据大小对学生模型性能的影响,并研究了它们的单语言、多语言和零样本跨语言能力。研究结果表明,学生模型可以用相对较少的训练实例实现高性能,并展示出强大的零样本跨语言能力。最后,我们发布了性能最佳的新闻主题分类器,实现了 IPTC 媒体主题模式顶级类别的多语言分类。
**论文地址:**http://arxiv.org/pdf/2411.19638v1
22.在社交媒体模拟中使用大语言模型构建有影响力的机器人
标题:《Build An Influential Bot In Social Media Simulations With Large Language Models》
**机构:**Cranfield University
**关键词:**Agent-Based Modelling, Large Language Model, Reinforcement Learning
**作者:**Bailu Jin,Weisi Guo
**推荐理由:**论文介绍了在社交媒体模拟环境中结合 ABM、LLM 和 RL 构建有影响力机器人的方法及相关研究成果。
**摘要:**理解在线社交平台上的舆论演变动态对于分析影响机制至关重要。传统的影响者分析方法通常分为对个人属性的定性评估和对影响力的定量评估。在这项研究中,我们引入了一种新的模拟环境,将基于代理的建模(ABM)与大语言模型(LLM)相结合,使代理能够生成帖子、形成意见并更新关注者网络。这种模拟可以更详细地观察意见领袖是如何出现的。此外,我们提出了强化学习(RL)的创新应用,以复制意见领袖形成的过程。我们的研究结果表明,限制行动空间和纳入自我观察是实现稳定的意见领袖生成的关键因素。学习曲线展示了该模型识别最佳策略并适应复杂、不可预测的动态的能力。
**论文地址:**http://arxiv.org/pdf/2411.19635v1
23.大型语言模型能对区域连接演算进行推理吗?
标题:《Can Large Language Models Reason about the Region Connection Calculus?》
**机构:**英国利兹大学计算机学院、英国图灵研究所
**关键词:**定性空间推理、大型语言模型、区域连接演算、空间推理任务
**作者:**Anthony G Cohn、Robert E Blackwell
**推荐理由:**论文研究了大型语言模型在区域连接演算上的推理能力,通过多组实验进行分析,虽表现不佳但有一定参考价值。
**摘要:**定性空间推理是知识表示与推理领域中一个被广泛探索的领域,具有从地理信息系统到机器人和计算机视觉等多个应用。最近,人们对大型语言模型(LLM)的推理能力提出了许多主张。在这里,我们研究了一组代表性的大型语言模型在单纯拓扑区域连接演算(RCC-8)上执行经典定性空间推理任务的程度。我们使用最先进的大型语言模型进行了三对实验(组成表重建、与人类组成偏好对齐、概念邻域重建);在每对实验中,一个实验使用同名关系,一个使用匿名关系(以测试大型语言模型在多大程度上依赖于训练期间获得的关系名称知识)。所有实例均重复 30 次以测量大型语言模型的随机性。没有一个测试的大型语言模型表现特别好,尽管比随机猜测要好一些。
**论文地址:**http://arxiv.org/pdf/2411.19589v1
24.含噪声标签的上下文学习
标题:《In-Context Learning with Noisy Labels》
**机构:**KAIST、Seoul National University
**关键词:**in-context learning, learning with noisy labels, large language models
**作者:**Junyong Kang、Donghyun Son
**推荐理由:**论文提出含噪声标签的上下文学习任务及方法,有效防止噪声标签导致的性能下降。
**摘要:**含噪声标签的上下文学习是指大型语言模型(LLM)在不进行额外训练的情况下执行目标任务的新兴能力,利用任务的演示进行学习。最近的研究旨在通过选择更有用的演示来提高上下文学习性能。然而,他们忽略了在现实世界中标签过程中任务演示中不可避免地存在噪声标签。在本文中,我们提出了一个新的任务,即含噪声标签的上下文学习,旨在解决上下文学习的现实世界问题,其中任务演示中的标签可能会被损坏。此外,我们为新任务提出了一种新方法和基准方法,受到带噪声标签学习研究的启发。通过实验,我们证明了我们提出的方法可以防止上下文学习中由噪声标签引起的性能下降。
**论文地址:**http://arxiv.org/pdf/2411.19581v1
25.基于大型语言模型的推荐系统解释综述
标题:《A Review of LLM-based Explanations in Recommender Systems》
**机构:**University of Gothenburg
**关键词:**recommender systems, explainable recommendation, large language models, llms, explanations
**作者:**Alan Said
**推荐理由:**本文对基于大型语言模型的推荐系统解释进行了系统综述,分析了现有研究的方法、挑战和未来方向。
**摘要:**大型语言模型(如 LLaMA 和 ChatGPT)的兴起为通过提高可解释性来增强推荐系统提供了新的机会。本文对利用大型语言模型为推荐生成解释进行了系统的文献综述,这对于提高透明度和用户信任至关重要。我们在 ACM 计算机文献指南中进行了全面搜索,涵盖了从 ChatGPT 推出(2022 年 11 月)到现在(2024 年 11 月)的出版物。搜索得到了 232 篇文章,但在应用纳入标准后,只有六篇被确定为直接涉及在解释推荐中使用大型语言模型。这表明,尽管大型语言模型兴起,但它们在可解释推荐系统中的应用仍处于早期阶段。我们分析了这些选定的研究,以了解当前方法,确定挑战,并为未来研究提出方向。我们的发现强调了大型语言模型在改进推荐系统解释方面的潜力,并鼓励开发更透明和以用户为中心的推荐解释解决方案。
**论文地址:**http://arxiv.org/pdf/2411.19576v1
26.大型语言模型的文体水印
标题:《Stylometric Watermarks for Large Language Models》
**机构:**Graz University of Technology, Austria;Know-Center GmbH & Institute of Interactive Systems and Data Science Graz University of Technology Graz, Austria
**关键词:**Watermark · Stylometry · Ensemble · Accountability · LLM
**作者:**Georg Niess;Roman Kern
**推荐理由:**论文提出了一种用于大型语言模型的集成水印方法,结合多种特征提高了对文本的检测率和抗攻击能力。
**摘要:**大型语言模型(LLMs)的快速发展使得人类越来越难以区分人类和机器撰写的文本。虽然现有的大型语言模型已经存在水印技术,但它们通常缺乏灵活性,并且难以应对诸如改写之类的攻击。为了解决这些问题,我们提出了一种多特征方法来生成水印,将多个不同的水印特征组合成一个集成水印。具体来说,我们将藏头诗和感觉运动规范与已建立的红绿水印相结合,实现了 98%的检测率。在遭受改写攻击后,检测率仍然高达 95%。单独的红绿特征作为基线检测率为 49%。对所有特征组合的评估表明,在多个大型语言模型和水印强度设置下,这三个特征的组合始终具有最高的检测率。由于集成特征的灵活性,可以满足各种需求和权衡。此外,对于所有的集成配置,都可以使用相同的检测函数而无需进行调整。这种方法对于促进问责制和防止社会危害特别有意义。
**论文地址:**http://arxiv.org/pdf/2411.19563v1
27.更新近似初始化是超高效低秩微调的灵丹妙药
标题:《Initialization using Update Approximation is a Silver Bullet for Extremely Efficient Low-Rank Fine-Tuning》
**机构:**Mohamed bin Zayed University of Artificial Intelligence,Georgia Institute of Technology
**关键词:**Low-rank adapters,full fine-tuning,initialization strategy,gradient approximation
**作者:**Kaustubh Ponkshe,Raghav Singhal
**推荐理由:**论文提出 LoRA-SB 方法,通过精心设计的初始化策略在低秩子空间内近似全微调,在性能和效率上有显著优势。
**摘要:**低秩适配器已成为有效微调大型语言模型的标准方法,但往往无法达到全微调的性能。我们提出了一种方法 LoRA Silver Bullet(LoRA-SB),它使用精心设计的初始化策略在低秩子空间内近似全微调。我们从理论上证明了 LoRA-XS 的架构(在 B 和 A 之间插入一个可训练的 r×r 矩阵,同时保持其他矩阵固定)提供了这种近似所需的精确条件。我们利用其受限的更新空间实现高秩梯度更新的最佳缩放,同时无需调整超参数。我们证明了我们的初始化提供了初始梯度的最佳低秩近似,并在整个训练过程中保持更新方向。通过对数学推理、常识推理和语言理解任务的广泛实验,表明我们的方法在使用少 27 - 90 倍参数的情况下超过了标准 LoRA 的性能,并且全面优于 LoRA-XS。我们的研究结果表明,可以在低秩子空间中模拟全微调,并在不牺牲性能的情况下实现显著的效率提升。
**论文地址:**http://arxiv.org/pdf/2411.19557v1
28.Unimib 助手:为满足学生各种需求而设计的基于检索增强生成的友好型聊天机器人
标题:《Unimib Assistant: designing a student-friendly RAG-based chatbot for all their needs》
**机构:**Università degli Studi di Milano Bicocca
**关键词:**ChatGPT,RAG,student-friendly chatbot,user experience,human-centered computing
**作者:**Chiara Antico,Stefano Giordano
**推荐理由:**介绍了基于检索增强生成的 Unimib 助手聊天机器人的设计与测试,为学生提供大学相关信息,虽有一些限制但有改进空间。
**摘要:**本文介绍了一项试点研究,重点是通过使用 OpenAI 的“自定义 GPT”功能的检索增强生成(RAG)系统,专门定制 ChatGPT 的行为。我们的聊天机器人“Unimib 助手”旨在通过问答方式为米兰比可卡大学的学生提供信息和解决方案。在初步定制阶段后,对另外六名学生进行了定性可用性测试,以确定聊天机器人的优缺点,以便在后续的重新设计阶段进行改进。尽管聊天机器人因其用户友好的体验、感知到的普遍可靠性、结构良好的响应和对话语气而受到赞赏,但也出现了一些重大的技术和功能限制。计划进行进一步的深入研究、其他用户的反馈以及实施迭代,以改进我们的 Unimib 助手。
**论文地址:**http://arxiv.org/pdf/2411.19554v1
29.基于大型语言模型弱监督反馈训练智能体
标题:《Training Agents with Weakly Supervised Feedback from Large Language Models》
**机构:**Tencent Inc
**关键词:**Large Language Models, agents, weakly supervised feedback, iterative training
**作者:**Dihong Gong, Pu Lu
**推荐理由:**论文提出一种基于大型语言模型弱监督反馈训练智能体的新方法,在减少对专家轨迹和明确环境反馈依赖的同时,实现了与 GPT-4 可比的性能。
**摘要:**大型语言模型(LLMs)为创建能够通过与环境的迭代交互来处理复杂任务的智能体提供了一个有前景的基础。现有方法要么要求这些智能体模仿专家提供的轨迹,要么依赖于明确的环境反馈进行强化学习,这限制了它们在特定场景(如游戏或代码生成)中的应用。本文介绍了一种使用来自评论大型语言模型的弱监督信号对基于 LLM 的智能体进行训练的新方法,无需专家轨迹或明确反馈。我们的智能体以迭代的方式进行训练,最初通过与环境交互生成轨迹。随后,一个评论 LLM 选择一部分好的轨迹,然后用于更新智能体,使其在下次迭代中生成改进的轨迹。在 API-bank 数据集上的广泛测试表明,我们的智能体的能力不断提高,并且在使用参数较少的开源模型时性能与 GPT-4 相当。
**论文地址:**http://arxiv.org/pdf/2411.19547v1
30.一种用于混合 CPU 性能优化的动态并行方法
标题:《A dynamic parallel method for performance optimization on hybrid CPUs》
**机构:**Intel Corporation
**关键词:**混合 CPU、动态并行方法、性能优化、LLM 推理
**作者:**Luo Yu,Liu Yucheng
**推荐理由:**论文提出一种用于混合 CPU 的动态并行方法,提高了 LLM 推理性能和内存带宽利用率。
**摘要:**AIPC 概念越来越受欢迎,越来越多的混合 CPU 将在客户端设备上运行人工智能模型。然而,当前的人工智能推理框架忽视了混合 CPU 硬件能力的不平衡,导致推理性能低下。为了解决这个问题,我们引入了一种用于混合 CPU 的动态并行方法,该方法通过在并行工作开始之前平衡混合 CPU 的每个核心的工作负载,显著提高了 LLM 推理性能。这种方法使 Neural Speed 在两个混合英特尔 CPU 上实现了平均超过 90%的内存带宽。
**论文地址:**http://arxiv.org/pdf/2411.19542v1
31.汽车故障分析的知识管理——基于图检索增强生成
标题:《Knowledge Management for Automobile Failure Analysis Using Graph RAG》
**机构:**The University of Tokyo、Hokkaido University
**关键词:**Graph RAG, Large Language Model, Knowl-edge Graph, Knowledge Management, Automobile Failure
**作者:**Yuta Ojima、Hiroki Sakaji
**推荐理由:**本文提出了一种适用于现有知识图谱的新型 Graph RAG 系统用于汽车故障分析的知识管理,通过实验证明了其有效性。
**摘要:**本文提出了一种利用大语言模型(LLMs)和知识图谱(KGs)的检索增强生成(RAG)进行汽车故障分析的知识管理系统。在汽车行业,尤其是日本卡车行业,近年来对故障分析知识从经验丰富的工程师向年轻工程师的转移需求日益增长。汽车故障分析复杂,缺乏经验很难解决,且如今年轻工程师需要处理更广泛和专业的故障问题。为应对这些挑战,某卡车公司每次发生故障时都会发布并存档“故障文件”以确保故障分析专业知识的转移。然而,这些文件是自然语言编写的,年轻工程师难以理解其中关键部件之间的关系。为便于理解组件之间的联系,以知识图谱形式表示这些文件是合理的,但现有的故障知识图谱对于年轻工程师来说也很复杂难懂。当前的图检索增强生成(Graph RAG)在适应现有知识图谱方面面临挑战,本文提出了一种可应用于现有知识图谱的新型 Graph RAG 系统,并通过实验证明了其有效性。
**论文地址:**http://arxiv.org/pdf/2411.19539v1
32.RAGDiffusion:通过外部知识同化实现忠实的布料生成
标题:《RAGDiffusion: Faithful Cloth Generation via External Knowledge Assimilation》
**机构:**Shanghai Jiao Tong University, Alibaba
**关键词:**RAGDiffusion, cloth generation, external knowledge assimilation
**作者:**Xianfeng Tan, Yuhan Li
**推荐理由:**论文提出的 RAGDiffusion 框架通过外部知识同化有效提升了服装生成的结构确定性和忠实度。
**摘要:**标准的服装资产生成涉及从不同的现实世界场景中提取服装信息,创建正面平铺的服装图像,这是一项具有重大挑战的任务。现有模型的空间感知有限,在这个高规格的生成任务中经常出现结构幻觉。为了解决这个问题,我们提出了一种新颖的检索增强生成(RAG)框架,称为 RAGDiffusion,通过从语言模型和数据库中同化外部知识来增强结构确定性并减少幻觉。RAGDiffusion 由两个核心过程组成:基于检索的结构聚合和全层级忠实的服装生成。广泛的实验表明,RAGDiffusion 合成了结构和细节忠实的服装资产,在高规格的忠实生成方面具有开创性努力。
**论文地址:**http://arxiv.org/pdf/2411.19528v1
33.利用大型语言模型进行机构投资组合管理:基于角色的集成方法
标题:《Leveraging Large Language Models for Institutional Portfolio Management: Persona-Based Ensembles》
**机构:**The University of Tokyo,The Canon Institute for Global Studies
**关键词:**Large language models,Finance,Prompt engineering,Persona,Ensemble method,Portfolio management
**作者:**Yoshia Abe,Shuhei Matsuo
**推荐理由:**论文研究了大型语言模型在机构投资组合管理中的应用,通过不同角色的集成方法提高预测准确性和投资策略效果。
**摘要:**大型语言模型(LLM)在各种金融应用中表现出了良好的性能,但其在复杂投资策略中的潜力尚未得到充分挖掘。为了弥补这一差距,我们研究了 LLM 如何利用经济指标预测股票和债券投资组合的价格走势,从而实现类似于机构投资者的投资组合调整。此外,我们还探讨了在 LLM 中融入不同角色的影响,通过集成方法利用它们的不同预测。我们发现,基于 LLM 的策略,特别是当结合模式集成时,在消费者价格指数(CPI)上升期间的夏普比率方面优于买入并持有策略。然而,在 CPI 下降趋势或市场急剧下跌期间,传统策略更为有效。这些结果表明,虽然 LLM 可以增强投资组合管理,但可能需要补充策略以在不同市场条件下优化性能。
**论文地址:**http://arxiv.org/pdf/2411.19515v1
34.面向代码的指令微调大语言模型的对抗鲁棒性研究
标题:《On the Adversarial Robustness of Instruction-Tuned Large Language Models for Code》
**机构:**University of Louisiana at Lafayette
**关键词:**Large language models (LLMs), Instruction-tuned Code LLMs, AI coding assistants, robustness, security
**作者:**Md Imran Hossen,Xiali Hei
**推荐理由:**论文引入 DegradePrompter 方法评估面向代码的指令微调大语言模型的鲁棒性,并提出了一种引导提示防御策略。
**摘要:**专为编码任务设计的指令微调大型语言模型(Code LLMs)的出现,标志着软件工程发展的一个重要里程碑。然而,这些模型对各种输入挑战的鲁棒性仍有待深入探索。本研究引入了 DegradePrompter,一种用于系统评估指令微调 Code LLMs 鲁棒性的新方法。我们使用严格的指标和既定的基准评估了不同输入挑战对生成代码的功能和正确性的影响。我们的综合评估涵盖了五个开源模型和三个闭源商业模型,揭示了不同程度的鲁棒性。开源模型对输入扰动表现出较高的敏感性,功能正确性下降幅度为 12%至 34%。相比之下,商业模型表现出相对更强的弹性,在类似输入挑战下性能下降幅度为 3%至 24%。为了提高模型对这些漏洞的鲁棒性,我们研究了一种简单而有效的缓解策略。我们的发现强调了在开发和部署阶段都需要强大的防御机制和全面评估,以确保自动化代码生成系统的弹性和可靠性。
**论文地址:**http://arxiv.org/pdf/2411.19508v1
35.TQA-Bench:利用可扩展上下文和符号扩展评估多表问答的大语言模型
标题:《TQA-Bench: Evaluating LLMs for Multi-Table Question Answering with Scalable Context and Symbolic Extension》
**机构:**HKUST,Tsinghua university
**关键词:**多表问答、大语言模型、基准测试、符号扩展、可扩展上下文
**作者:**Zipeng Qiu,You Peng
**推荐理由:**论文提出了 TQA-Bench 多表问答基准,用于评估大语言模型在复杂关系数据问答任务中的能力,涵盖了多种数据集、采样机制和评估方法。
**摘要:**大语言模型(LLMs)的出现为复杂数据管理任务带来了前所未有的机遇,尤其是在复杂多表关系数据的问答任务中。尽管取得了重大进展,但系统地评估多表问答中的大语言模型仍然是一个关键挑战,因为分析异构表结构和潜在大规模序列化关系数据具有内在复杂性。现有基准主要集中在单表问答,未能捕捉多个关系表之间推理的复杂性,而这在金融、医疗保健和电子商务等实际领域中是必需的。为了解决这一差距,我们提出了 TQA-Bench,一个新的多表问答基准,旨在评估大语言模型在处理关系数据上复杂问答任务的能力。我们的基准结合了来自真实世界公共数据集的各种关系数据库实例,并引入了灵活的采样机制,以创建具有不同多表上下文长度(从 8K 到 64K 标记)的任务。为了确保鲁棒性和可靠性,我们将符号扩展集成到评估框架中,使我们能够评估大语言模型在简单数据检索或概率模式匹配之外的推理能力。我们系统地评估了一系列开源和闭源的大语言模型,模型规模从 70 亿到 700 亿参数不等。我们的广泛实验揭示了大语言模型在多表问答中的关键见解,突出了在复杂数据驱动环境中推进其应用的挑战和机遇。
**论文地址:**http://arxiv.org/pdf/2411.19504v1
36.封闭日常活动中的因果推理
标题:《COLD: Causal reasOning in cLosed Daily activities》
**机构:**Indian Institute of Technology Kanpur (IIT Kanpur)
**关键词:**causal reasoning, language models, closed daily activities, causal query triplets
**作者:**Abhinav Joshi, Areeb Ahmad, Ashutosh Modi
**推荐理由:**论文提出COLD框架用于测试语言模型因果推理能力,通过大量实验揭示了语言模型在日常活动因果推理中的挑战。
**摘要:**本文提出了COLD(Causal reasOning in cLosed Daily activities)框架,用于测试自然语言理解系统(如大型语言模型)的因果推理能力。该框架基于日常脚本知识,创建了大量的因果查询,通过对广泛使用的开源语言模型进行实验,评估了其因果推理能力。结果表明,大型语言模型在对日常活动进行因果推理方面仍有挑战,该框架为未来理解大型语言模型的因果推理能力提供了良好的平台。
**论文地址:**http://arxiv.org/pdf/2411.19500v1
37.交错模态思维链
标题:《Interleaved-Modal Chain-of-Thought》
**机构:**苏州大学计算机科学与技术学院、香港理工大学计算机系
**关键词:**交错模态思维链、视觉语言模型、注意力驱动选择、多模态推理
**作者:**Jun Gao、Yongqi Li
**推荐理由:**论文提出交错模态思维链(ICoT)及注意力驱动选择(ADS)策略,在视觉语言模型的多模态推理中取得显著性能提升和可解释性改进。
**摘要:**思维链(CoT)提示旨在增强大型语言模型(LLM)的推理能力,促使它们在得出最终答案之前产生一系列中间自然语言推理步骤。随着视觉语言模型(VLM)的发展,将 CoT 提示扩展到多模态 CoT 以提高 VLM 在视觉相关任务中的推理能力变得越来越重要。本文提出了一种图像融合的多模态思维链,即交错模态思维链(ICoT),它生成由成对的视觉和文本理由组成的顺序推理步骤以推断最终答案。由于当前的 VLM 难以生成细粒度的交错模态内容,我们提出了注意力驱动选择(ADS)策略,在现有 VLM 上实现 ICoT。ADS 仅依赖于 VLM 的注意力图,无需参数化,是一种即插即用的策略。我们在两个不同架构的流行 VLM 上应用 ADS 实现 ICoT,三个基准的广泛评估表明,与现有多模态 CoT 提示方法相比,ICoT 提示实现了显著的性能(高达 14%)和可解释性改进。
**论文地址:**http://arxiv.org/pdf/2411.19488v1
38.动作引擎:基于 LLM 的自动 FaaS 工作流生成框架
标题:《Action Engine: An LLM-based Framework for Automatic FaaS Workflow Generation》
**机构:**University of North Texas
**关键词:**FaaS, Action Engine, LLM, workflow generation
**作者:**Akiharu Esashi, Pawissanutt Lertpongrujikorn
**推荐理由:**本文提出的动作引擎利用工具增强的大型语言模型自动生成 FaaS 工作流,减少专业知识需求,提高工作流生成的正确性,为云原生应用开发带来便利。
**摘要:**函数即服务(FaaS)因其在可扩展性、成本效益和易用性方面的固有优势,有望成为下一代云系统的基础。然而,云原生应用程序开发人员仍然面临着诸如需要专业知识和构建功能工作流困难等挑战。为了克服这些挑战并减轻开发基于 FaaS 的应用程序的负担,本文提出了一种称为动作引擎的机制,该机制在其核心使用工具增强的大型语言模型(LLM)来解释人类语言查询并自动生成 FaaS 工作流,从而减少了对专业知识和手动设计的需求。动作引擎包括从 FaaS 存储库中识别相关功能并无缝管理它们之间的数据依赖关系的模块,确保开发人员的查询得到处理和解决。此外,动作引擎可以通过提供用户参数来执行生成的工作流。我们的评估表明,动作引擎可以在无需开发人员参与的情况下生成正确率高达 20%的工作流。我们注意到,动作引擎可以为不熟悉云的开发人员解锁 FaaS 工作流生成,并加速云原生应用程序的开发周期。
**论文地址:**http://arxiv.org/pdf/2411.19485v1
39.大型语言模型的零索引互联网搜索增强生成
标题:《Zero-Indexing Internet Search Augmented Generation for Large Language Models》
**机构:**HKUST,Fudan University
**关键词:**大型语言模型、互联网搜索增强生成、零索引、信息提取
**作者:**Guangxin He,Zonghong Dai
**推荐理由:**本文提出了一种用于大型语言模型的零索引互联网搜索增强生成范式,通过多个关键组件提升了生成内容的质量,并在生产环境中得到成功应用。
**摘要:**检索增强生成已成为提高大型语言模型性能的有效方法。本文探索了一种利用标准搜索引擎 API 动态整合最新在线信息的替代方法,设计了一个基于大型语言模型的协作范式,包括确定是否需要互联网增强生成并提取搜索关键词的 PARSER - LLM、重新对检索到的 HTML 文件进行排序的混合排序策略以及从 HTML 文件中准确高效提取相关信息的 EXTRACTOR - LLM。通过大量实证研究评估了该互联网搜索增强生成范式的性能,该系统已成功部署在生产环境中。
**论文地址:**http://arxiv.org/pdf/2411.19478v1
40.大型语言模型测试时间计算的简单可证明缩放定律
标题:《A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models》
**机构:**Alibaba Group
**关键词:**large language models, test-time compute, scaling law
**作者:**Yanxi Chen, Xuchen Pan
**推荐理由:**论文提出了一种用于大型语言模型测试时间计算的两阶段算法,并证明了其具有可证明的缩放定律,通过实验验证了算法的有效性和假设,为大型语言模型的测试时间计算提供了理论和实践的支持。
**摘要:**尽管在过去几年中大型语言模型取得了惊人的进步,但它们在可靠性和稳定性方面仍面临挑战。这阻碍了它们在高风险场景中的应用,在这些场景中,问题需要以 99.9%而不是 90%的成功率解决。同样,在基于大型语言模型的代理工作流程中,涉及解决许多子问题,每个子问题都需要以高成功率解决,以确保完整工作流程的成功,因为过程中的单个错误可能导致最终输出不正确。在这些以及许多其他类似场景中,人们愿意通过在大型语言模型推理上花费更多测试时间计算来提高成功概率。常见方法包括让大型语言模型生成长链思维轨迹,或要求大型语言模型迭代地自我验证或自我完善它生成的解决方案。另一类方法是对多个候选解决方案进行采样,然后通过多数投票、成对比较或使用外部验证器或训练奖励模型来选择最佳方案。这项工作的主要目标是为扩大大型语言模型推理的测试时间计算的全部潜力提供一些理论见解。
**论文地址:**http://arxiv.org/pdf/2411.19477v1
41.理解 RAG 系统中的检索准确性和提示质量
标题:《Towards Understanding Retrieval Accuracy and Prompt Quality in RAG Systems》
**机构:**University of Alberta, Canada;The University of Tokyo, Japan;East China Normal University, Shanghai, China
**关键词:**Retrieval-Augmented Generation (RAG),Large Language Models (LLMs),retrieval recall,document selection,prompt techniques
**作者:**Shengming Zhao,Yuheng Huang
**推荐理由:**论文深入研究了 RAG 系统的关键因素,为开发和优化此类系统提供了有价值的见解和指南。
**摘要:**本文对增强型语言模型生成(RAG)系统进行了探索性研究,旨在理解其性能变化的潜在因素,为开发和优化 RAG 系统提供指导。研究聚焦于 RAG 系统中的检索文档和提示两个关键部分,分析了检索文档类型、检索召回率、文档选择和提示技术四个关键因素对系统性能的影响,并基于实验结果提出了九条实用指南,同时探讨了 RAG 系统在代码任务中的性能退化问题以及模型置信度作为指标的有效性等。
**论文地址:**http://arxiv.org/pdf/2411.19463v1
42.Fleximo:迈向灵活的文本到人体运动视频生成
标题:《Fleximo: Towards Flexible Text-to-Human Motion Video Generation》
**机构:**Beijing University of Posts and Telecommunications, 01.AI
**关键词:**text-to-human motion video generation, Fleximo, anchor point based rescale, skeleton adapter, LLM planning
**作者:**Yuhang Zhang, Yuan Zhou
**推荐理由:**论文提出了 Fleximo 框架用于文本到人体运动视频生成,利用大规模预训练模型并引入新基准和指标,在生成高质量视频方面表现出色。
**摘要:**当前生成人体运动视频的方法依赖于从参考视频中提取姿势序列,这限制了灵活性和控制。我们引入了一项新任务,即仅从参考图像和自然语言生成人体运动视频。为了解决这个任务,我们提出了一个名为 Fleximo 的新框架,它利用了大规模预训练的文本到 3D 运动模型。我们还提出了一个基准测试 MotionBench 和一个新的指标 MotionScore。实验结果表明,我们的方法在生成高质量的人体运动视频方面优于现有的文本条件图像到视频生成方法。
**论文地址:**http://arxiv.org/pdf/2411.19459v1
43.大型语言模型超越表面结构:因果评估其理解能力
标题:《Beyond Surface Structure: A Causal Assessment of LLMs’ Comprehension Ability》
**机构:**The University of Hong Kong,Shanghai Artificial Intelligence Laboratory
**关键词:**大型语言模型、表面结构、深层结构、因果中介分析、理解能力
**作者:**Yujin Han,Lei Xu
**推荐理由:**论文通过因果中介分析评估大型语言模型对深层和表面结构的理解能力,提出新的评估方法和见解。
**摘要:**大型语言模型(LLMs)在自然语言任务中展现出了卓越的能力,但对于它们是否真正理解问题的深层结构(即核心语义),还是仅仅依赖于表面结构(如呈现格式)仍存在争议。本文通过因果中介分析评估 LLMs 的理解能力,提出可量化的近似直接因果效应(ADCE)和近似间接因果效应(AICE)来分别衡量深层结构和表面结构的理解能力。实验表明,大多数 LLMs 具有深层结构理解能力,且这种能力与预测准确性呈强相关。同时,比较 ADCE 和 AICE 显示,闭源 LLMs(如 GPT)更依赖于深层结构,而开源 LLMs(如 Llama)对表面结构更敏感,但随着模型规模的增加,这种敏感性会降低。
**论文地址:**http://arxiv.org/pdf/2411.19456v1
44.基于大型语言模型的自主检索增强生成方法
标题:《AUTO-RAG: A UTONOMOUS RETRIEVAL-AUGMENTED GENERATION FOR LARGE LANGUAGE MODELS》
**机构:**中国科学院计算技术研究所智能信息处理重点实验室、中国科学院人工智能安全重点实验室、中国科学院大学
**关键词:**大型语言模型、检索增强生成、自主迭代检索
**作者:**Tian Yu、Shaolei Zhang、Yang Feng
**推荐理由:**论文提出的 Auto-RAG 模型通过自主迭代检索和基于推理的决策指令合成,有效提升了大型语言模型在检索增强生成任务中的性能和可解释性。
**摘要:**迭代检索是指模型在生成过程中不断查询检索器以增强检索知识的相关性,从而提高检索增强生成(RAG)的性能。现有工作通常采用少样本提示或手动构建规则来实现迭代检索,这会引入额外的推理开销,并且忽略了大型语言模型(LLM)卓越的推理能力。本文介绍了一种以 LLM 的强大决策能力为核心的自主迭代检索模型 Auto-RAG。Auto-RAG 通过与检索器进行多轮对话,系统地规划检索并细化查询以获取有价值的知识,直到收集到足够的外部信息后将结果呈现给用户。为此,我们开发了一种在迭代检索中自动合成基于推理的决策指令的方法,并对最新的开源 LLM 进行了微调。实验结果表明,Auto-RAG 能够与检索器进行自主迭代交互,有效地利用 LLM 卓越的推理和决策能力,在六个基准测试中表现出色。进一步分析表明,Auto-RAG 可以根据问题的难度和检索知识的效用自主调整迭代次数,无需任何人工干预。此外,Auto-RAG 以自然语言表达迭代检索过程,提高了可解释性,为用户提供了更直观的体验。
**论文地址:**http://arxiv.org/pdf/2411.19443v1
45.Marconi:混合语言模型时代的前缀缓存
标题:《Marconi: Prefix Caching for the Era of Hybrid LLMs》
**机构:**Princeton University, AWS
**关键词:**prefix caching, Hybrid LLMs, SSM states, FLOP-aware eviction
**作者:**Rui Pan, Zhuang Wang
**推荐理由:**论文提出了 Marconi 系统,为混合语言模型设计了新颖的前缀缓存准入和驱逐策略,提高了缓存命中率和计算效率。
**摘要:**混合模型结合了注意力层的语言建模能力和循环层(如状态空间模型)的效率,在大型语言模型服务中实际支持长上下文方面越来越受关注。然而,这些模型的独特属性使诸如前缀缓存等互补效率优化的使用变得复杂,前缀缓存可跳过跨请求的冗余计算。本文提出了 Marconi,第一个支持混合语言模型高效前缀缓存的系统。关键在于其新颖的准入和驱逐策略,不仅基于最近性,还基于对不同命中场景分类的重用可能性预测以及相对于内存占用的计算节省量来评估潜在的缓存条目。在不同的工作负载和混合模型中,与最先进的前缀缓存系统相比,Marconi 实现了高达 34.4 倍的更高令牌命中率(71.1%或低 617 毫秒的首次令牌时间)。
**论文地址:**http://arxiv.org/pdf/2411.19379v1
46.DENIAHL:上下文特征影响语言模型大海捞针能力
标题:《DENIAHL: In-Context Features Influence LLM Needle-In-A-Haystack Abilities》
**机构:**New York University,Databricks
**关键词:**语言模型、大海捞针任务、数据特征、GPT-3.5、LLaMA-2-7B
**作者:**Hui Dai,Dan Pechi
**推荐理由:**论文通过开发 DENIAHL 基准测试,研究了数据特征对语言模型大海捞针能力的影响,包括 GPT-3.5 和 LLaMA 2-7B 在不同数据特征下的性能表现。
摘要:‘大海捞针’(NIAH)测试是一项用于评估语言模型从长输入上下文中回忆特定信息能力的通用任务。然而,该框架无法分析除上下文长度之外还有哪些因素会影响语言模型分离和回忆针的能力。为了系统地评估哪些特征有助于语言模型的大海捞针能力,我们开发了一个名为 DENIAHL(面向语言模型的大海捞针数据导向评估)的综合基准。我们的工作在以往的 NIAH 研究基础上,消融了除典型上下文长度之外的 NIAH 特征,包括数据类型、大小和模式。我们发现 GPT-3.5 和 LLaMA 2-7B 在 DENIAHL 上的性能存在显著差异,当项目大小等特征增加时,回忆性能会下降,在一定程度上,当数据类型从数字变为字母时也是如此。这对越来越大的上下文模型有影响,表明除项目数量之外的因素会影响大海捞针的能力。
**论文地址:**http://arxiv.org/pdf/2411.19360v1
47.OMuleT:为实用对话推荐编排多种工具
标题:《OMuleT: Orchestrating Multiple Tools for Practicable Conversational Recommendation》
**机构:**University of California, San Diego、Roblox
**关键词:**conversational recommender systems, large language models
**作者:**Se-eun Yoon、Xiaokai Wei
**推荐理由:**论文提出为实用对话推荐系统配备多种工具的方法并进行了全面评估和部署分享。
**摘要:**本文介绍了一种设计、评估和实现实用对话推荐系统(CRS)的系统方法。该系统旨在让用户输入自由格式的文本请求推荐,并获得相关且多样的项目列表。作者认为,为了有效处理真实用户请求,需要比现有方法更多的工具来增强大型语言模型(LLM)。作者提出了一种新方法,为 LLM 配备超过 10 种工具,并在真实用户数据集上进行评估,展示了其相比普通 LLM 能生成更相关、新颖和多样的推荐。此外,作者还进行了消融研究,证明了使用全套工具的有效性,并分享了部署系统的设计和经验教训。
**论文地址:**http://arxiv.org/pdf/2411.19352v1
48.CLIP 与 DINO 结合用于无标签图像集合调优零样本分类器
标题:《CLIP meets DINO for Tuning Zero-Shot Classifier using Unlabeled Image Collections》
**机构:**Mohamed Bin Zayed University of AI、The Johns Hopkins University
**关键词:**CLIP、DINO、label-free prompt-tuning、zero-shot classification、image classification
**作者:**Mohamed Fazli Imam、Rufael Fedaku Marew
**推荐理由:**论文提出一种利用 DINO 和大型语言模型来增强 CLIP 图像分类性能的无标签提示调整方法,在多个图像分类数据集上取得了优于现有方法的性能。
**摘要:**在基础模型时代,CLIP 已成为将文本和视觉模态对齐到一个共同嵌入空间的强大工具。然而,用于训练 CLIP 的对齐目标通常会导致在细粒度任务中的视觉特征欠佳。相比之下,像 DINO 这样的自监督预训练模型由于其专门的训练范式,在提取丰富的视觉特征方面表现出色。本文提出了一种无标签提示调整方法,利用自监督学习模型(DINO)的丰富视觉特征和大型语言模型(LLM)的广泛文本知识,使用未标记图像极大地增强基于 CLIP 的图像分类性能。该方法包括三个关键步骤:首先,利用来自 LLM 的特定类描述生成更准确代表对象类的稳健文本特征嵌入,与 CLIP 的默认名称特定提示相比,实现更有效的零样本分类;其次,这些文本嵌入用于生成伪标签,以训练一个对齐模块,该模块整合了基于 LLM 描述的文本嵌入和 DINO 的视觉特征的互补优势;最后,通过训练后的对齐模块,利用 DINO 辅助监督对 CLIP 的视觉编码器进行提示调整。
**论文地址:**http://arxiv.org/pdf/2411.19346v1
49.结构化对象语言建模(SoLM):符合复杂模式的原生结构化对象生成
标题:《Structured Object Language Modeling (SoLM): Native Structured Objects Generation Conforming to Complex Schemas with Self-Supervised Denoising》
**机构:**Amazon, Seattle, USA
**关键词:**Structured Object Language Modeling, self-supervised denoising, LLM, JSON generation
**作者:**Amir Tavanaei, Kee Kiat Koo
**推荐理由:**提出结构化对象语言建模方法,通过自监督去噪和有监督微调生成符合复杂模式的结构化对象,性能与先进通用 LLM 相当且成本效益更高。
**摘要:**在本文中,我们研究了生成符合复杂模式的结构化对象的问题,对象的不同组件(方面)之间存在复杂的依赖关系。对象的方面(属性、字段、列、特性)可以是短的、结构化的、类型受限的事实,或者是长的自然语言描述的混合。对象在其携带的冗余信息中必须在不同方面之间保持自洽(相对一致性),同时要基于世界知识(绝对一致性)。我们将这个问题构建为语言建模问题(结构化对象语言建模),并训练一个大型语言模型(LLM)原生地执行该任务,无需指令或提示工程。我们提出了一种自监督去噪方法,从现有的此类对象数据集上训练模型。输入查询可以是现有对象本身,在这种情况下,模型充当再生器,完成、纠正、规范化输入,或者将任何非结构化的描述转换为结构化。我们表明,自监督去噪训练提供了一个强大的基线,并且少量的人工示范进行额外的有监督微调可以带来进一步的改进。实验结果表明,所提出的方法与经过提示工程的最先进的通用 LLM(Claude 3、Mixtral - 8x7B)相匹配或更优,同时成本效益高一个数量级。
**论文地址:**http://arxiv.org/pdf/2411.19301v1
50.VECOGEN:使用大型语言模型自动生成经过形式验证的 C 代码
标题:《VECOGEN : Automating Generation of Formally Verified C Code with Large Language Models》
**机构:**Scania & KTH Royal Institute of Technology
**关键词:**Code Generation, Large Language Models, Formal Verification, Iterative Code Improvement
**作者:**Merlijn Sevenhuijsen,Khashayar Etemadi,Mattias Nyberg
**推荐理由:**论文介绍了 VECOGEN 工具,通过结合大型语言模型和形式验证来自动生成经过形式验证的 C 代码,具有创新性和实用价值。
**摘要:**大型语言模型(LLM)在生成代码方面表现出了令人印象深刻的能力,但它们生成的程序往往存在缺陷或与预期行为存在偏差,这限制了它们在安全关键型应用中的适用性。为了解决这一局限性,本文介绍了一种名为 VECOGEN 的新型工具,它将大型语言模型与形式验证相结合,以自动生成经过形式验证的 C 程序。VECOGEN 采用 ANSI/ISO C 规范语言(ACSL)中的形式规范、自然语言规范和一组测试用例来尝试生成程序。这个程序生成过程包括两个步骤:首先,VECOGEN 生成一组初始的候选程序;其次,该工具通过编译器和形式验证器的反馈迭代地改进先前生成的候选程序。如果一个候选程序满足形式规范,那么我们可以确定该程序是正确的。本文在 Codeforces 竞赛中的 15 个问题上对 VECOGEN 进行了评估,它解决了其中的 13 个问题。这项工作展示了将大型语言模型与形式验证相结合以自动生成程序的潜力。
**论文地址:**http://arxiv.org/pdf/2411.19275v1
在今天的论文分享中,有没有哪一篇特别触动了你的心弦?我们非常期待听到你的声音!请在评论区留言,分享你的思考和见解,让我们一起讨论、启发和成长。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈