大模型
文章平均质量分 92
柏企
统计学硕士,从事大模型研发。人工智能相关发明专利3个。博客回复不及时,可添加微信:CBQtunan 个人公众号: AI论文解读 欢迎关注
展开
-
清华大学提出视频去模糊领域适应方案,硬盘里的电影可以更清晰了
1. 域适应的必要性由于摄像机设置和拍摄场景的多样性,不同的视频可能呈现出不同的模糊模式,这些模式在训练阶段可能未被模型见过,从而导致模型在实际应用中效果下降。域适应方法通过调整模型以适应新的域特性,有助于提升模型在未见领域的性能。2. 方法的核心组件:相对锐度检测模块和域适应模糊条件生成模块相对锐度检测模块(RSDM)用于从模糊视频中检测出相对清晰的区域,这些区域被视为伪锐利图像。域适应模糊条件生成模块(DBCGM)则根据这些伪锐利图像和视频中的运动线索,生成与目标域特定模糊条件相匹配的模糊图像。原创 2024-08-19 13:35:19 · 755 阅读 · 0 评论 -
多智能体新进展||斯坦福大学提出新模型‘Hypothetical Minds‘,让AI更懂人类思维
1. 模型架构与组件Hypothetical Minds模型是一个基于大型语言模型(LLM)的自主智能体,它通过整合感知、记忆和两级抽象层次的层次化规划的模块化组件,来应对MARL中的挑战。该模型的架构包括多个认知模块,如感知模块、记忆系统以及理论心智(Theory of Mind, ToM)和子目标(Subgoal)模块,后两者分别负责输出高层次的目标和行动计划。2. 理论心智(Theory of Mind, ToM)模块的作用。原创 2024-08-15 20:39:57 · 641 阅读 · 0 评论 -
颠覆传统 北大新型MoM架构挑战Transformer模型,显著提升计算效率
Mixture-of-Modules (MoM) 是一种新颖的架构,旨在打破传统的 Transformer 模型中深度有序的层次结构。MoM的核心思想是将神经网络定义为由传统 Transformer 派生的模块的动态组装。这些模块包括多头注意力(MHA)、前馈网络(FFN)和特殊的“SKIP”模块,每个模块都具有独特的参数化。在 MoM 中,每个令牌的计算图是通过两个路由器动态选择注意力模块和前馈模块并在前向传递中组装这些模块来形成的。原创 2024-08-15 20:36:31 · 1193 阅读 · 0 评论 -
LLM新巅峰||北大提出mllm-NPU,赋能1000字/秒的设备端LLM预填充
mllm-NPU是一个创新的大型语言模型(LLM)推理系统,专为移动设备上的神经处理单元(NPU)优化。该系统的主要设计目标是减少预填充(prefill)阶段的延迟和能耗,同时保持推理精度。mllm-NPU通过在算法和系统设计上的协同优化,有效地解决了LLM架构与现代NPU设计之间的语义差异。mllm-NPU的工作流程包括准备阶段和执行阶段。在准备阶段,mllm-NPU使用增强的张量级量化算法将LLM量化为W8A8格式,并生成固定长度的分块共享图,以高效处理变长提示。原创 2024-08-07 11:06:39 · 797 阅读 · 0 评论 -
关于RAG进展|| RankRAG:在大模型中统一检索增强生成的上下文排序
RankRAG是一种新型的指令微调框架,旨在通过单一的大型语言模型(LLM)同时处理上下文排名和答案生成,以增强其在检索增强生成(RAG)任务中的性能。这种方法特别适用于处理知识密集型的自然语言处理任务。1. 指令微调的双重目的上下文排名和答案生成。这种设计基于这样的假设:上下文的相关性判断和利用相关上下文生成答案的能力是相辅相成的。通过在训练阶段同时对这两种能力进行指令微调,RankRAG能够在实际应用中更有效地筛选和利用相关上下文。2. 训练阶段的设计。原创 2024-07-31 18:33:51 · 456 阅读 · 0 评论 -
大模型真能模拟人类语言?中国人民大学提出新的数据增强方法
在本文中,我们探讨了大型语言模型(LLM)生成的自然语言(LLMNL)与人类自然语言(HNL)之间的关系,并引入了缩放法则来深入分析这两者之间的相似性和差异。通过广泛的实验,我们发现LLMNL与HNL之间存在微小的偏差,特别是在Mandelbrot的法则中观察到约0.2的指数差异。这一发现不仅加深了我们对语言风格的理解,还为LLM的进一步应用和发展奠定了坚实的基础。此外,我们提出了一种新的文本分类数据增强方法——ZGPTDA,该方法利用缩放法则的一致性通过模糊计算机制对GPT-4增强数据进行决策。原创 2024-07-11 20:39:27 · 869 阅读 · 0 评论 -
苹果提出RLAIF:轻量级语言模型编写代码
1. RLAIF的概念与发展Reinforcement Learning from AI Feedback (RLAIF) 是一种新兴的强化学习方法,它利用大型语言模型(LLM)生成的反馈来训练小型模型。这种方法首次由Bai等人在2022年提出,并迅速在多个领域展示了其潜力,例如在减少LLM输出中的伤害、增强文本摘要和数学推理方面。RLAIF通过专门的提示策略从更大的LLM(例如GPT-3.5)中提取AI反馈,并使用这些数据训练奖励模型,以改善小型LLM的表现。2. 为何选择RLAIF替代传统RLHF。原创 2024-07-11 20:36:01 · 829 阅读 · 0 评论 -
突破AI性能瓶颈 揭秘LLaMA-MoE模型的高效分配策略
专家构建是将原始Feed-Forward Networks (FFNs)的参数划分为多个专家。传统的FFN层包含大量参数,原创 2024-07-10 11:02:53 · 1594 阅读 · 3 评论 -
微软发布E2 TTS: 一种简单但效果优秀的文本转语音技术
本文介绍了一种名为“Embarrassingly Easy Text-to-Speech(E2 TTS)”的文本转语音系统。该系统通过将输入文本转换为填充标记字符序列,并基于音频填充值任务训练流匹配基mel频谱生成器,实现了人类水平的自然度和最先进的说话人相似性和可理解性。与许多先前的工作不同,它不需要额外组件或复杂技术的支持。尽管简单,但E2 TTS在零样本TTS能力方面取得了与先前工作相当甚至超越的效果,包括Voicebox和NaturalSpeech 3。原创 2024-07-10 10:45:34 · 499 阅读 · 0 评论 -
哈佛大学 || 概念空间中学习动态的涌现:探索隐藏能力
在现代生成模型的研究中,概念空间框架提供了一个新颖的视角来分析和理解模型如何学习和操纵数据生成过程中的概念。概念空间是一个抽象的坐标系统,其轴对应于数据生成过程中的独立概念。这些概念可以是形状、大小、颜色等,每一个轴代表一个概念的变化维度。通过在概念空间中分析模型的学习动态,可以观察到模型如何逐步学习各个概念,并且如何在学习过程中突然转变其学习方向。这些转变点通常对应于模型突然获得新能力的时刻,即模型已经具备了操纵某一概念的能力,但这些能力在常规输入提示下尚未显现。原创 2024-07-08 20:04:18 · 845 阅读 · 0 评论 -
如何解决模型的灾难性遗忘问题?清华大学提出新方法
在持续学习(CL)的领域中,语言模型(LM)面临着灾难性遗忘的挑战,这限制了它们在持续学习任务中的长期可持续性。为了解决这一问题,研究人员提出了多种方法,包括基于复习的方法、基于架构的方法和基于参数的方法。然而,这些方法往往依赖于旧任务数据或任务标签,这在实际应用中可能难以获取或成本较高。针对这一挑战,本文介绍了一种名为“MIGU”(基于幅度的梯度更新)的新方法。MIGU方法不需要复习旧任务数据,也不需要任务标签,它通过只更新输出幅度较大的模型参数来实现持续学习。原创 2024-07-08 20:01:18 · 1348 阅读 · 0 评论 -
AI模型的奥运会:谁将在OlympicArena中夺冠?
OlympicArena是由Huang等人在2024年提出的一个全新的、具有挑战性的人工智能评测基准。这一基准测试旨在通过模拟奥林匹克级别的多学科、多模态竞赛环境,推动人工智能在认知推理能力上的极限。OlympicArena包含了11,163个双语问题,这些问题涵盖了文本只读和文本-图像交错的模态,覆盖了七个常见学科和62个国际奥林匹克竞赛项目。1. 数据集的设计与挑战OlympicArena的设计严格检查了数据泄露问题,确保了测试的公正性和有效性。原创 2024-06-30 20:56:50 · 580 阅读 · 1 评论 -
中科大揭秘微调大模型的秘诀:如何精准选择数据提升AI性能
1. 数据选择的重要性数据选择是指从大规模候选数据集中筛选出最有利于模型学习的数据子集。这一过程对于构建高效的语言模型至关重要。通过有效的数据选择,可以确保模型训练集中于最具代表性和挑战性的样本,从而在实际应用中展现出更强的性能和更好的泛化能力。2. 数据选择的方法发展早期的数据选择方法多依赖于简单的随机抽样或者基于规则的筛选。然而,这些方法往往忽视了数据的内在质量和与模型性能的相关性。随着技术的进步,更多研究开始利用机器学习技术,通过模型预测的方式来评估数据质量,实现更为精准的数据选择。原创 2024-06-22 23:40:17 · 713 阅读 · 1 评论 -
NVIDIA新模型Nemotron-4:98%的训练数据是合成生成的,你敢信?
Nemotron-4 340B系列模型包括三个主要版本:Nemotron-4-340B-Base、Nemotron-4-340B-Instruct和Nemotron-4-340B-Reward。这些模型是在NVIDIA开放模型许可协议下发布的,该协议允许模型及其输出的分发、修改和使用。Nemotron-4 340B系列模型在多个评估基准测试中与其他开放访问模型具有竞争力,并且设计为在单个DGX H100设备上使用8个GPU以FP8精度部署时能够适应。这些模型特别适用于生成用于训练较小语言模型的合成数据。原创 2024-06-18 22:50:16 · 1366 阅读 · 1 评论 -
Google推出开源代码大模型CodeGemma:AI编程新纪元,代码自动完成和生成技术再升级
CodeGemma是基于Google DeepMind的Gemma模型系列(Gemma Team et al., 2024)开发的一系列开放代码模型。这些模型继承了Gemma预训练模型的基础,并在此基础上进一步训练,使用的数据主要是代码,训练数据量在5000亿到1000亿token之间。CodeGemma模型在代码完成和生成任务中达到了最先进的性能,同时在大规模情况下仍保持强大的理解和推理能力。原创 2024-06-18 22:28:41 · 2034 阅读 · 8 评论 -
基于Transformer的时间序列综述
1. TNN与时间序列生成的现状Transformer Neural Networks(TNN)已经在多个领域显示出其强大的生成能力,尤其是在自然语言处理(NLP)中。然而,在时间序列生成的应用中,TNN的潜力尚未被充分挖掘。时间序列数据的重要性不言而喻,它涉及到从医疗健康监测到金融市场分析等多个关键领域。尽管如此,相较于其他领域,如图像和文本,时间序列生成领域中关于TNN的研究相对较少。2. TNN在时间序列生成中的应用。原创 2024-06-06 08:40:00 · 906 阅读 · 0 评论 -
阿里巴巴打破视频生成技术壁垒,EasyAnimate实现高质量长视频生成
在模型训练方面,EasyAnimate采用了三阶段训练策略,首先是图像数据的训练,然后是动态模块的大规模数据集训练,最后是高分辨率视频和图像的整体网络训练。运动模块的训练是在大规模数据集上进行的,这一步骤至关重要,因为它帮助模型捕捉视频中的时间动态信息,从而生成连贯的帧和平滑的运动过渡。通过比较多个大型多模态模型的性能和操作效率,选择了性能优异的VideoChat2和VILA进行视频数据的字幕处理,这些模型在视频字幕的详细性和时间信息方面表现出色,有助于提高生成视频的质量。引言:视频生成技术的演进与挑战。原创 2024-06-05 08:30:00 · 534 阅读 · 0 评论 -
超越传统AI 新型多智能体系统MESA,探索效率大幅提升
MESA(Cooperative Meta-Exploration in Multi-Agent Learning through Exploiting State-Action Space Structure)是一种针对多智能体学习的元探索方法,旨在通过利用状态-动作空间结构来提高探索效率。在多智能体强化学习(MARL)中,探索效率尤为关键,因为环境的复杂性和智能体间的交互增加了学习的难度。原创 2024-06-05 08:25:00 · 1725 阅读 · 2 评论 -
深入探索个性化推荐新境界:AI通过语言理解你的喜好,效率提升131%
PEBOL(Preference Elicitation with Bayesian Optimization augmented LLMs)是一种新颖的自然语言偏好询问(NL-PE)算法,它通过结合贝叶斯优化和大型语言模型(LLM)来推断用户的物品偏好。这种方法首先利用自然语言推理(NLI)在对话话语和物品描述之间进行推断,以维护贝叶斯偏好信念;原创 2024-06-04 09:50:38 · 1084 阅读 · 0 评论 -
超越GPT-4 LoRA技术引领大型语言模型新革命
Low Rank Adaptation(LoRA)是一种用于大型语言模型(LLMs)的参数高效微调(PEFT)方法,近年来得到了广泛的采用。LoRA通过在模型的冻结权重层旁增加少量的可训练低秩矩阵,显著减少了可训练参数的数量,同时几乎不增加推理时的计算负担。这种方法不仅节省了内存使用,还能在保持与全参数微调相当的性能的同时,实现更高的计算效率。LoRA的核心思想是在不完全解冻原始模型的情况下,通过微调少量的参数来适应下游任务。原创 2024-06-04 09:41:23 · 495 阅读 · 0 评论 -
中国版SORA,清华&生物科技发布Vidu大模型
U-ViT作为一种基于ViT的架构,通过将所有输入包括时间、条件和噪声图像块视为令牌,并在浅层和深层之间采用长跳跃连接,为图像生成任务提供了一种新的解决方案。在多项基准测试中,U-ViT不仅在无条件和类条件图像生成任务中展现了与CNN-based U-Net相当甚至更优的性能,还在文本到图像的生成任务中取得了突破性的成绩,特别是在不访问大型外部数据集的情况下,其FID得分在业界内达到了新高。U-ViT的成功展示了ViT架构在处理复杂图像生成任务中的潜力,并可能推动未来更多基于ViT的生成模型的研究和开发。原创 2024-05-30 08:30:00 · 1199 阅读 · 0 评论 -
剑桥联手英特尔,利用大模型重构逆向图形学,解锁图像新维度
逆向图形学(Inverse Graphics)是计算机视觉和图形学中的一个基本挑战,其任务是将图像转化为物理变量,这些变量在渲染时能够再现观察到的场景。这一过程涉及到将图像解构为其构成元素,如场景中物体的形状、颜色和材料属性等。这需要对环境有一个全面的理解,而这一需求限制了现有方法在跨领域泛化的能力。逆向图形学的概念可以追溯到至少1974年的Baumgart,并且在后续的研究中逐渐发展。原创 2024-05-29 08:00:00 · 1631 阅读 · 0 评论 -
中科院联合腾讯研发ID-Animator:实现零训练的高保真身份视频生成
ID-Animator是一个创新的框架,旨在生成高保真度的个性化人类视频,仅需单一参考面部图像即可实现,无需进一步的模型调整。该框架继承了现有的基于扩散的视频生成模型,并加入了一个轻量级的面部适配器模块,用于从可学习的面部潜在查询中编码与身份相关的嵌入信息。面部适配器:面部适配器是ID-Animator的核心组件之一,它通过简单的查询基础图像编码器和可训练的交叉注意力投影权重来实现。原创 2024-05-28 13:52:44 · 920 阅读 · 0 评论 -
微软联手清华,AI注释让文本到图像生成更符合人类偏好
本研究展示了利用人类偏好数据集来精细调整文本到图像生成模型的潜力,增强了生成图像与文本提示之间的一致性。尽管取得了进展,现有的人类偏好数据集要么构建成本过高,要么在偏好维度上缺乏多样性,限制了其在开源文本到图像生成模型指导调整中的应用,并阻碍了进一步的探索。为了应对这些挑战并通过指导调整促进生成模型的一致性,我们利用多模态大型语言模型创建了一个高质量、细粒度的偏好数据集 VisionPrefer,该数据集捕获了多个偏好方面。原创 2024-05-28 08:00:00 · 1733 阅读 · 4 评论 -
Mamba3D革新3D点云分析:超越Transformer,提升特征提取效率与性能
Mamba3D是一种针对3D点云数据设计的新型状态空间模型,它在处理无序点云时展现出卓越的性能和高效率。与传统的Transformer模型相比,Mamba3D利用其线性复杂度优势,有效地提高了处理速度和扩展性,同时保持了较低的参数和计算成本。Mamba3D的设计核心在于其能够有效地捕捉局部几何特征,并通过双向状态空间模型(bi-SSM)增强全局特征的提取。这一点在无序的3D点云处理中尤为重要,因为点云数据的无序性使得传统的基于序列的模型难以直接应用。原创 2024-05-27 08:25:00 · 662 阅读 · 0 评论 -
阿里巴巴最新研究突破:自我演化大模型,打破性能天花板
本文全面回顾了自我演化大型语言模型(LLMs)的发展,从早期的训练范式到当前的自我演化方法。通过详细介绍经验获取、精炼、更新和评估的迭代周期,本文不仅展示了LLMs在自主学习和改进方面的潜力,还突出了面向未来研究的挑战和方向。这些研究方向包括目标的多样性和层次性、自主性的层次、经验的获取与精炼、更新的稳定性-可塑性困境以及系统性的评估方法。通过解决这些挑战,未来的LLMs将能够更有效地适应复杂的真实世界任务,从而在智能系统的发展中迈出重要一步。原创 2024-05-26 08:20:00 · 556 阅读 · 0 评论 -
清华新突破||新研究揭示多智能体协作的秘密武器
1. ReAd-S 与 ReAd-J 的策略细节ReAd框架提供了两种策略:ReAd-S和ReAd-J。ReAd-S针对每个智能体单独优化其动作,通过评估每个智能体动作的局部优势函数来进行。而ReAd-J则是在所有智能体之间进行联合计划,优化整体的联合动作,通过评估联合优势函数来实现。这两种策略都利用了一个批评网络来回归估计从大规模语言模型(LLM)计划的数据中学到的优势函数,并将LLM规划器作为优化器,通过提示生成最大化优势值的动作。2. 理论动机与约束策略搜索问题。原创 2024-05-25 20:55:01 · 861 阅读 · 0 评论 -
数学模型揭秘AI与用户如何互相塑造
数学模型揭秘AI与用户如何互相塑造:新视角助推社会影响监控与控制数学模型揭秘AI与用户如何互相塑造:新视角助推社会影响监控与控制原创 2024-05-25 08:05:00 · 2146 阅读 · 0 评论 -
IBM推出FastFit:多类文本分类的快速有效解决方案
1. FastFit的核心技术:批次对比训练与令牌级文本相似性度量FastFit方法采用了批次对比训练技术,这一技术通过优化批次内的文本之间的相似度,增强了模型对同类文本的识别能力。此外,FastFit还引入了令牌级文本相似性度量,允许模型在更细粒度上理解和比较文本内容,这对于处理语义相近的多类别文本分类尤为有效。这种方法通过对每个文本标记的密集表示进行相似度计算,实现了高精度的文本分类。2. 方法的工作流程与数据增强技术。原创 2024-05-24 08:00:00 · 1836 阅读 · 4 评论 -
Reka全能多模态语言模型:Reka Core竞争GPT4-V,表现更胜一筹
ReKa技术报告解读||Reka系列全能多模态语言模型来袭:Reka Core竞争GPT4-V,表现更胜一筹!原创 2024-05-23 10:50:15 · 1628 阅读 · 3 评论 -
腾讯新策略MANGO大幅提升代码生成能力,桥接自然逻辑与编程语言
在代码生成任务中,理解问题描述并生成相应的代码片段是一个复杂的挑战。现有的研究通常通过提示策略将这一复杂任务分解为中间步骤,例如Chain-of-Thought及其变体。然而,这些研究的有效性高度依赖于高级大型语言模型(LLMs)如GPT-4的能力,尤其是在API调用方面,这显著限制了它们的实际应用性。因此,如何在不显著增加训练成本的情况下提高中小规模代码LLMs的代码生成能力,成为一个吸引人的挑战。原创 2024-05-23 09:40:26 · 1200 阅读 · 1 评论 -
大模型论文解读 || 新型数据科学解决方案Data Interpreter助力实时数据调整与优化
新型数据科学解决方案Data Interpreter助力实时数据调整与优化原创 2024-03-04 10:19:19 · 1766 阅读 · 0 评论 -
伯克利提出LLoCO技术:高效压缩检索,让大模型飞速回答长篇问答
在处理长文本上下文时,大型语言模型(LLMs)面临着计算和内存开销呈二次方增长的挑战,这主要是由于自注意力机制的特性以及在生成过程中需要维护庞大的KV缓存。为了解决这一问题,我们提出了一种新颖的方法,即LLoCO技术,它通过离线学习上下文来实现上下文压缩和领域内参数高效微调。这种方法使得LLM能够创建原始上下文的简洁表示,并在问答过程中有效检索相关信息以准确回答问题。1. 上下文压缩的必要性与方法上下文压缩的目的是将长文本上下文转换为更紧凑的表示形式,从而减少模型处理时所需的计算和内存资源。原创 2024-05-19 22:42:49 · 956 阅读 · 0 评论 -
无限上下文,Google新突破 Infini-attention实现大模型处理超长输入
在处理长序列数据时,传统的Transformer模型面临着显著的挑战,主要是由于其注意力机制在内存和计算上的二次方复杂度。为了克服这一限制,本文提出了一种新型的注意力技术,称为Infini-attention。Infini-attention机制通过将压缩记忆系统整合到标准的注意力机制中,有效地扩展了Transformer模型处理无限长输入的能力,同时保持有界的内存和计算需求。1. 设计理念。原创 2024-05-18 10:10:00 · 1039 阅读 · 0 评论 -
今日论文解读||微软联手清华,重塑语言模型训练法则:Rho-1引领精准预训练
传统的语言模型预训练方法普遍采用对所有训练token应用下一个token预测损失的方式。这种方法虽然简单直接,但并不总是最优或可行的。尽管通过各种启发式方法和分类器对训练文档进行筛选已经成为提升数据质量、增强模型性能的重要手段,高质量数据集中仍然存在许多噪声token,这些token可能会对训练产生负面影响。研究表明,网络数据的分布并不总是与下游应用的理想分布一致,普通语料库中的token可能包含不希望的内容,如幻觉或难以预测的高度模糊token。原创 2024-05-17 21:52:02 · 1152 阅读 · 0 评论 -
论文解读|CVPR 2024亮相MULTIFLOW:颠覆视觉语言模型剪枝法
1. 信息流模型的构建与参数重要性评估MULTIFLOW将每一层视为一个二分图,其中节点代表激活,边代表参数。利用校准数据,参数的显著性通过结合其大小与其连接的输入/输出节点发出/聚集的平均信号来建模。直接使用这些分数进行剪枝可能会导致对层深度的偏见,并忽略了不同模态之间激活模式和大小的差异。为了克服这个问题,我们将模态分离并引导剪枝,利用参数大小的分布。2. 多模态分布引导的剪枝过程为了避免模型偏向于特定模态或网络层级,我们根据预训练VLM参数的先验分布对每个参数的重要性进行重新加权。原创 2024-05-17 21:46:04 · 1018 阅读 · 0 评论 -
大模型论文解读||智能体可靠性的革命性提升,知识工程领域的参考架构新篇章
智能体大模型可靠性的革命性提升!揭秘知识工程领域的参考架构新篇章原创 2024-04-30 21:54:48 · 1715 阅读 · 0 评论 -
大模型的代码编辑力:CodeEditor揭示GeminiUltra和GPT4的超凡实力
大语言模型的代码编辑力大比拼:CodeEditorBench揭示Gemini-Ultra和GPT-4的超凡实力!原创 2024-04-30 21:40:08 · 1130 阅读 · 0 评论 -
论文解读|Meta·清华·剑桥联合研发树搜索法,优化复杂系统性能提升10-20倍
突破2000维难题巅峰,Meta·清华·剑桥联合研发树搜索法,优化复杂系统性能提升10-20倍原创 2024-04-28 21:34:17 · 1220 阅读 · 2 评论 -
大模型论文解读|保持话题一致性,Nvidia新研究发布新数据集,
保持话题一致性,Nvidia新研究发布CantTalkAboutThis数据集,让聊天机器人不再跑题!原创 2024-04-28 21:28:19 · 393 阅读 · 0 评论