自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AI论文解读

论文学习分享 一起进步

  • 博客(63)
  • 资源 (1)
  • 收藏
  • 关注

原创 大模型真能模拟人类语言?中国人民大学提出新的数据增强方法

在本文中,我们探讨了大型语言模型(LLM)生成的自然语言(LLMNL)与人类自然语言(HNL)之间的关系,并引入了缩放法则来深入分析这两者之间的相似性和差异。通过广泛的实验,我们发现LLMNL与HNL之间存在微小的偏差,特别是在Mandelbrot的法则中观察到约0.2的指数差异。这一发现不仅加深了我们对语言风格的理解,还为LLM的进一步应用和发展奠定了坚实的基础。此外,我们提出了一种新的文本分类数据增强方法——ZGPTDA,该方法利用缩放法则的一致性通过模糊计算机制对GPT-4增强数据进行决策。

2024-07-11 20:39:27 816

原创 苹果提出RLAIF:轻量级语言模型编写代码

1. RLAIF的概念与发展Reinforcement Learning from AI Feedback (RLAIF) 是一种新兴的强化学习方法,它利用大型语言模型(LLM)生成的反馈来训练小型模型。这种方法首次由Bai等人在2022年提出,并迅速在多个领域展示了其潜力,例如在减少LLM输出中的伤害、增强文本摘要和数学推理方面。RLAIF通过专门的提示策略从更大的LLM(例如GPT-3.5)中提取AI反馈,并使用这些数据训练奖励模型,以改善小型LLM的表现。2. 为何选择RLAIF替代传统RLHF。

2024-07-11 20:36:01 782

原创 突破AI性能瓶颈 揭秘LLaMA-MoE模型的高效分配策略

专家构建是将原始Feed-Forward Networks (FFNs)的参数划分为多个专家。传统的FFN层包含大量参数,

2024-07-10 11:02:53 1458 3

原创 微软发布E2 TTS: 一种简单但效果优秀的文本转语音技术

本文介绍了一种名为“Embarrassingly Easy Text-to-Speech(E2 TTS)”的文本转语音系统。该系统通过将输入文本转换为填充标记字符序列,并基于音频填充值任务训练流匹配基mel频谱生成器,实现了人类水平的自然度和最先进的说话人相似性和可理解性。与许多先前的工作不同,它不需要额外组件或复杂技术的支持。尽管简单,但E2 TTS在零样本TTS能力方面取得了与先前工作相当甚至超越的效果,包括Voicebox和NaturalSpeech 3。

2024-07-10 10:45:34 451

原创 哈佛大学 || 概念空间中学习动态的涌现:探索隐藏能力

在现代生成模型的研究中,概念空间框架提供了一个新颖的视角来分析和理解模型如何学习和操纵数据生成过程中的概念。概念空间是一个抽象的坐标系统,其轴对应于数据生成过程中的独立概念。这些概念可以是形状、大小、颜色等,每一个轴代表一个概念的变化维度。通过在概念空间中分析模型的学习动态,可以观察到模型如何逐步学习各个概念,并且如何在学习过程中突然转变其学习方向。这些转变点通常对应于模型突然获得新能力的时刻,即模型已经具备了操纵某一概念的能力,但这些能力在常规输入提示下尚未显现。

2024-07-08 20:04:18 815

原创 如何解决模型的灾难性遗忘问题?清华大学提出新方法

在持续学习(CL)的领域中,语言模型(LM)面临着灾难性遗忘的挑战,这限制了它们在持续学习任务中的长期可持续性。为了解决这一问题,研究人员提出了多种方法,包括基于复习的方法、基于架构的方法和基于参数的方法。然而,这些方法往往依赖于旧任务数据或任务标签,这在实际应用中可能难以获取或成本较高。针对这一挑战,本文介绍了一种名为“MIGU”(基于幅度的梯度更新)的新方法。MIGU方法不需要复习旧任务数据,也不需要任务标签,它通过只更新输出幅度较大的模型参数来实现持续学习。

2024-07-08 20:01:18 1164

原创 AI模型的奥运会:谁将在OlympicArena中夺冠?

OlympicArena是由Huang等人在2024年提出的一个全新的、具有挑战性的人工智能评测基准。这一基准测试旨在通过模拟奥林匹克级别的多学科、多模态竞赛环境,推动人工智能在认知推理能力上的极限。OlympicArena包含了11,163个双语问题,这些问题涵盖了文本只读和文本-图像交错的模态,覆盖了七个常见学科和62个国际奥林匹克竞赛项目。1. 数据集的设计与挑战OlympicArena的设计严格检查了数据泄露问题,确保了测试的公正性和有效性。

2024-06-30 20:56:50 519 1

原创 中科大揭秘微调大模型的秘诀:如何精准选择数据提升AI性能

1. 数据选择的重要性数据选择是指从大规模候选数据集中筛选出最有利于模型学习的数据子集。这一过程对于构建高效的语言模型至关重要。通过有效的数据选择,可以确保模型训练集中于最具代表性和挑战性的样本,从而在实际应用中展现出更强的性能和更好的泛化能力。2. 数据选择的方法发展早期的数据选择方法多依赖于简单的随机抽样或者基于规则的筛选。然而,这些方法往往忽视了数据的内在质量和与模型性能的相关性。随着技术的进步,更多研究开始利用机器学习技术,通过模型预测的方式来评估数据质量,实现更为精准的数据选择。

2024-06-22 23:40:17 653 1

原创 NVIDIA新模型Nemotron-4:98%的训练数据是合成生成的,你敢信?

Nemotron-4 340B系列模型包括三个主要版本:Nemotron-4-340B-Base、Nemotron-4-340B-Instruct和Nemotron-4-340B-Reward。这些模型是在NVIDIA开放模型许可协议下发布的,该协议允许模型及其输出的分发、修改和使用。Nemotron-4 340B系列模型在多个评估基准测试中与其他开放访问模型具有竞争力,并且设计为在单个DGX H100设备上使用8个GPU以FP8精度部署时能够适应。这些模型特别适用于生成用于训练较小语言模型的合成数据。

2024-06-18 22:50:16 1287 1

原创 Google推出开源代码大模型CodeGemma:AI编程新纪元,代码自动完成和生成技术再升级

CodeGemma是基于Google DeepMind的Gemma模型系列(Gemma Team et al., 2024)开发的一系列开放代码模型。这些模型继承了Gemma预训练模型的基础,并在此基础上进一步训练,使用的数据主要是代码,训练数据量在5000亿到1000亿token之间。CodeGemma模型在代码完成和生成任务中达到了最先进的性能,同时在大规模情况下仍保持强大的理解和推理能力。

2024-06-18 22:28:41 1766 8

原创 基于Transformer的时间序列综述

1. TNN与时间序列生成的现状Transformer Neural Networks(TNN)已经在多个领域显示出其强大的生成能力,尤其是在自然语言处理(NLP)中。然而,在时间序列生成的应用中,TNN的潜力尚未被充分挖掘。时间序列数据的重要性不言而喻,它涉及到从医疗健康监测到金融市场分析等多个关键领域。尽管如此,相较于其他领域,如图像和文本,时间序列生成领域中关于TNN的研究相对较少。2. TNN在时间序列生成中的应用。

2024-06-06 08:40:00 816

原创 阿里巴巴打破视频生成技术壁垒,EasyAnimate实现高质量长视频生成

在模型训练方面,EasyAnimate采用了三阶段训练策略,首先是图像数据的训练,然后是动态模块的大规模数据集训练,最后是高分辨率视频和图像的整体网络训练。运动模块的训练是在大规模数据集上进行的,这一步骤至关重要,因为它帮助模型捕捉视频中的时间动态信息,从而生成连贯的帧和平滑的运动过渡。通过比较多个大型多模态模型的性能和操作效率,选择了性能优异的VideoChat2和VILA进行视频数据的字幕处理,这些模型在视频字幕的详细性和时间信息方面表现出色,有助于提高生成视频的质量。引言:视频生成技术的演进与挑战。

2024-06-05 08:30:00 481

原创 超越传统AI 新型多智能体系统MESA,探索效率大幅提升

MESA(Cooperative Meta-Exploration in Multi-Agent Learning through Exploiting State-Action Space Structure)是一种针对多智能体学习的元探索方法,旨在通过利用状态-动作空间结构来提高探索效率。在多智能体强化学习(MARL)中,探索效率尤为关键,因为环境的复杂性和智能体间的交互增加了学习的难度。

2024-06-05 08:25:00 1676 2

原创 深入探索个性化推荐新境界:AI通过语言理解你的喜好,效率提升131%

PEBOL(Preference Elicitation with Bayesian Optimization augmented LLMs)是一种新颖的自然语言偏好询问(NL-PE)算法,它通过结合贝叶斯优化和大型语言模型(LLM)来推断用户的物品偏好。这种方法首先利用自然语言推理(NLI)在对话话语和物品描述之间进行推断,以维护贝叶斯偏好信念;

2024-06-04 09:50:38 1049

原创 超越GPT-4 LoRA技术引领大型语言模型新革命

Low Rank Adaptation(LoRA)是一种用于大型语言模型(LLMs)的参数高效微调(PEFT)方法,近年来得到了广泛的采用。LoRA通过在模型的冻结权重层旁增加少量的可训练低秩矩阵,显著减少了可训练参数的数量,同时几乎不增加推理时的计算负担。这种方法不仅节省了内存使用,还能在保持与全参数微调相当的性能的同时,实现更高的计算效率。LoRA的核心思想是在不完全解冻原始模型的情况下,通过微调少量的参数来适应下游任务。

2024-06-04 09:41:23 464

原创 中国版SORA,清华&生物科技发布Vidu大模型

U-ViT作为一种基于ViT的架构,通过将所有输入包括时间、条件和噪声图像块视为令牌,并在浅层和深层之间采用长跳跃连接,为图像生成任务提供了一种新的解决方案。在多项基准测试中,U-ViT不仅在无条件和类条件图像生成任务中展现了与CNN-based U-Net相当甚至更优的性能,还在文本到图像的生成任务中取得了突破性的成绩,特别是在不访问大型外部数据集的情况下,其FID得分在业界内达到了新高。U-ViT的成功展示了ViT架构在处理复杂图像生成任务中的潜力,并可能推动未来更多基于ViT的生成模型的研究和开发。

2024-05-30 08:30:00 1165

原创 剑桥联手英特尔,利用大模型重构逆向图形学,解锁图像新维度

逆向图形学(Inverse Graphics)是计算机视觉和图形学中的一个基本挑战,其任务是将图像转化为物理变量,这些变量在渲染时能够再现观察到的场景。这一过程涉及到将图像解构为其构成元素,如场景中物体的形状、颜色和材料属性等。这需要对环境有一个全面的理解,而这一需求限制了现有方法在跨领域泛化的能力。逆向图形学的概念可以追溯到至少1974年的Baumgart,并且在后续的研究中逐渐发展。

2024-05-29 08:00:00 1609

原创 中科院联合腾讯研发ID-Animator:实现零训练的高保真身份视频生成

ID-Animator是一个创新的框架,旨在生成高保真度的个性化人类视频,仅需单一参考面部图像即可实现,无需进一步的模型调整。该框架继承了现有的基于扩散的视频生成模型,并加入了一个轻量级的面部适配器模块,用于从可学习的面部潜在查询中编码与身份相关的嵌入信息。面部适配器:面部适配器是ID-Animator的核心组件之一,它通过简单的查询基础图像编码器和可训练的交叉注意力投影权重来实现。

2024-05-28 13:52:44 879

原创 微软联手清华,AI注释让文本到图像生成更符合人类偏好

本研究展示了利用人类偏好数据集来精细调整文本到图像生成模型的潜力,增强了生成图像与文本提示之间的一致性。尽管取得了进展,现有的人类偏好数据集要么构建成本过高,要么在偏好维度上缺乏多样性,限制了其在开源文本到图像生成模型指导调整中的应用,并阻碍了进一步的探索。为了应对这些挑战并通过指导调整促进生成模型的一致性,我们利用多模态大型语言模型创建了一个高质量、细粒度的偏好数据集 VisionPrefer,该数据集捕获了多个偏好方面。

2024-05-28 08:00:00 1705 4

原创 Mamba3D革新3D点云分析:超越Transformer,提升特征提取效率与性能

Mamba3D是一种针对3D点云数据设计的新型状态空间模型,它在处理无序点云时展现出卓越的性能和高效率。与传统的Transformer模型相比,Mamba3D利用其线性复杂度优势,有效地提高了处理速度和扩展性,同时保持了较低的参数和计算成本。Mamba3D的设计核心在于其能够有效地捕捉局部几何特征,并通过双向状态空间模型(bi-SSM)增强全局特征的提取。这一点在无序的3D点云处理中尤为重要,因为点云数据的无序性使得传统的基于序列的模型难以直接应用。

2024-05-27 08:25:00 597

原创 阿里巴巴最新研究突破:自我演化大模型,打破性能天花板

本文全面回顾了自我演化大型语言模型(LLMs)的发展,从早期的训练范式到当前的自我演化方法。通过详细介绍经验获取、精炼、更新和评估的迭代周期,本文不仅展示了LLMs在自主学习和改进方面的潜力,还突出了面向未来研究的挑战和方向。这些研究方向包括目标的多样性和层次性、自主性的层次、经验的获取与精炼、更新的稳定性-可塑性困境以及系统性的评估方法。通过解决这些挑战,未来的LLMs将能够更有效地适应复杂的真实世界任务,从而在智能系统的发展中迈出重要一步。

2024-05-26 08:20:00 519

原创 清华新突破||新研究揭示多智能体协作的秘密武器

1. ReAd-S 与 ReAd-J 的策略细节ReAd框架提供了两种策略:ReAd-S和ReAd-J。ReAd-S针对每个智能体单独优化其动作,通过评估每个智能体动作的局部优势函数来进行。而ReAd-J则是在所有智能体之间进行联合计划,优化整体的联合动作,通过评估联合优势函数来实现。这两种策略都利用了一个批评网络来回归估计从大规模语言模型(LLM)计划的数据中学到的优势函数,并将LLM规划器作为优化器,通过提示生成最大化优势值的动作。2. 理论动机与约束策略搜索问题。

2024-05-25 20:55:01 797

原创 数学模型揭秘AI与用户如何互相塑造

数学模型揭秘AI与用户如何互相塑造:新视角助推社会影响监控与控制数学模型揭秘AI与用户如何互相塑造:新视角助推社会影响监控与控制

2024-05-25 08:05:00 2111

原创 IBM推出FastFit:多类文本分类的快速有效解决方案

1. FastFit的核心技术:批次对比训练与令牌级文本相似性度量FastFit方法采用了批次对比训练技术,这一技术通过优化批次内的文本之间的相似度,增强了模型对同类文本的识别能力。此外,FastFit还引入了令牌级文本相似性度量,允许模型在更细粒度上理解和比较文本内容,这对于处理语义相近的多类别文本分类尤为有效。这种方法通过对每个文本标记的密集表示进行相似度计算,实现了高精度的文本分类。2. 方法的工作流程与数据增强技术。

2024-05-24 08:00:00 1795 4

原创 Reka全能多模态语言模型:Reka Core竞争GPT4-V,表现更胜一筹

ReKa技术报告解读||Reka系列全能多模态语言模型来袭:Reka Core竞争GPT4-V,表现更胜一筹!

2024-05-23 10:50:15 1591 3

原创 腾讯新策略MANGO大幅提升代码生成能力,桥接自然逻辑与编程语言

在代码生成任务中,理解问题描述并生成相应的代码片段是一个复杂的挑战。现有的研究通常通过提示策略将这一复杂任务分解为中间步骤,例如Chain-of-Thought及其变体。然而,这些研究的有效性高度依赖于高级大型语言模型(LLMs)如GPT-4的能力,尤其是在API调用方面,这显著限制了它们的实际应用性。因此,如何在不显著增加训练成本的情况下提高中小规模代码LLMs的代码生成能力,成为一个吸引人的挑战。

2024-05-23 09:40:26 1179 1

原创 伯克利提出LLoCO技术:高效压缩检索,让大模型飞速回答长篇问答

在处理长文本上下文时,大型语言模型(LLMs)面临着计算和内存开销呈二次方增长的挑战,这主要是由于自注意力机制的特性以及在生成过程中需要维护庞大的KV缓存。为了解决这一问题,我们提出了一种新颖的方法,即LLoCO技术,它通过离线学习上下文来实现上下文压缩和领域内参数高效微调。这种方法使得LLM能够创建原始上下文的简洁表示,并在问答过程中有效检索相关信息以准确回答问题。1. 上下文压缩的必要性与方法上下文压缩的目的是将长文本上下文转换为更紧凑的表示形式,从而减少模型处理时所需的计算和内存资源。

2024-05-19 22:42:49 919

原创 无限上下文,Google新突破 Infini-attention实现大模型处理超长输入

在处理长序列数据时,传统的Transformer模型面临着显著的挑战,主要是由于其注意力机制在内存和计算上的二次方复杂度。为了克服这一限制,本文提出了一种新型的注意力技术,称为Infini-attention。Infini-attention机制通过将压缩记忆系统整合到标准的注意力机制中,有效地扩展了Transformer模型处理无限长输入的能力,同时保持有界的内存和计算需求。1. 设计理念。

2024-05-18 10:10:00 1003

原创 今日论文解读||微软联手清华,重塑语言模型训练法则:Rho-1引领精准预训练

传统的语言模型预训练方法普遍采用对所有训练token应用下一个token预测损失的方式。这种方法虽然简单直接,但并不总是最优或可行的。尽管通过各种启发式方法和分类器对训练文档进行筛选已经成为提升数据质量、增强模型性能的重要手段,高质量数据集中仍然存在许多噪声token,这些token可能会对训练产生负面影响。研究表明,网络数据的分布并不总是与下游应用的理想分布一致,普通语料库中的token可能包含不希望的内容,如幻觉或难以预测的高度模糊token。

2024-05-17 21:52:02 1137

原创 论文解读|CVPR 2024亮相MULTIFLOW:颠覆视觉语言模型剪枝法

1. 信息流模型的构建与参数重要性评估MULTIFLOW将每一层视为一个二分图,其中节点代表激活,边代表参数。利用校准数据,参数的显著性通过结合其大小与其连接的输入/输出节点发出/聚集的平均信号来建模。直接使用这些分数进行剪枝可能会导致对层深度的偏见,并忽略了不同模态之间激活模式和大小的差异。为了克服这个问题,我们将模态分离并引导剪枝,利用参数大小的分布。2. 多模态分布引导的剪枝过程为了避免模型偏向于特定模态或网络层级,我们根据预训练VLM参数的先验分布对每个参数的重要性进行重新加权。

2024-05-17 21:46:04 934

原创 大模型论文解读||智能体可靠性的革命性提升,知识工程领域的参考架构新篇章

智能体大模型可靠性的革命性提升!揭秘知识工程领域的参考架构新篇章

2024-04-30 21:54:48 1655

原创 大模型的代码编辑力:CodeEditor揭示GeminiUltra和GPT4的超凡实力

大语言模型的代码编辑力大比拼:CodeEditorBench揭示Gemini-Ultra和GPT-4的超凡实力!

2024-04-30 21:40:08 1099

原创 论文解读|Meta·清华·剑桥联合研发树搜索法,优化复杂系统性能提升10-20倍

突破2000维难题巅峰,Meta·清华·剑桥联合研发树搜索法,优化复杂系统性能提升10-20倍

2024-04-28 21:34:17 1188 2

原创 大模型论文解读|保持话题一致性,Nvidia新研究发布新数据集,

保持话题一致性,Nvidia新研究发布CantTalkAboutThis数据集,让聊天机器人不再跑题!

2024-04-28 21:28:19 371

原创 大模型论文解读|腾讯&清华联合打造Eurus:用偏好树推进大语言模型的推理能力大突破

震惊,清华大学居然研究这个!超越GPT-3.5Turbo,腾讯&清华联合打造Eurus:用偏好树推进大语言模型的推理能力大突破

2024-04-25 19:49:30 1368 2

原创 大模型论文解读||清华新突破,360°REA重塑多智能体系统:全方位提升复杂任务表现

清华新突破,360°REA重塑多智能体系统:全方位评估与经验积累提升复杂任务表现

2024-04-22 22:23:03 750

原创 论文解读||清华大学:序列推荐模型稳定性飙升,STDP框架惊艳登场

清华大学重磅发布:统计之力赋能,序列推荐模型稳定性飙升!STDP框架惊艳登场,性能领跑!

2024-04-22 22:16:59 664

原创 今日大模型论文解读~LORA被碾压了?多任务学习新突破,MTLoRA实现3.6倍参数高效适配

震惊,LORA被碾压了?多任务学习新突破!MTLoRA实现3.6倍参数高效适配,精度超越全微调

2024-04-21 16:22:50 1153

原创 今日论文解读|解锁多智能体路径规划新境界:结合启发式搜索提升ML本地策略

解锁多智能体路径规划新境界:结合启发式搜索提升ML本地策略

2024-04-20 21:02:02 1192

原创 论文解读|导航指令生成新篇章:将语义地图转化为机器人眼中的“道路”

导航指令生成新篇章:将语义地图转化为机器人眼中的“道路”,COLING 2024亮相新模型导航指令生成新篇章:将语义地图转化为机器人眼中的“道路”,COLING 2024亮相新模型

2024-04-14 17:41:51 732

新型数据科学解决方案Data Interpreter助力实时数据调整与优化

论文原文 DATA INTERPRETER AN LLM AGENT FOR DATA SCIENCE

2024-03-04

10.1.1.421.8930.pdf

10.1.1.421.8930.pdf

2021-03-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除