
Technical Report
文章平均质量分 71
该部分主要是整理技术报告相关内容,摘要和结论是首先呈现的,报告完整的内容会不定期更新完成。如果需要,请私信催更!!!
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Qwen2.5-Omni Technical Report
Qwen2.5-Omni是一个端到端多模态模型,能够同时处理文本、图像、音频、视频输入,并实时生成文本和自然语音响应。多模态感知:采用分块处理的音频/视频编码器,结合TMRoPE时间对齐位置编码,支持长序列多模态数据的高效处理。双轨生成架构:通过Thinker(文本生成)和Talker(语音生成)分离设计,实现两种模态输出的无干扰协同。流式处理优化:引入滑动窗口DiT模型减少语音生成延迟,支持多模态输入的实时预处理。多阶段训练:通过文本、图像、视频、音频等多源数据预训练,结合指令微调提升综合能力。原创 2025-04-12 08:30:00 · 127 阅读 · 0 评论 -
Gemma 3 Technical Report
我们推出Gemma 3,这是Gemma系列轻量级开源模型的多模态扩展版本,参数规模从10亿到270亿不等。该版本引入了视觉理解能力,扩大了语言覆盖范围,并支持至少128K令牌的长文本上下文。我们还改进了模型架构,通过增加局部与全局注意力层的比例,缩短局部注意力的跨度,减少了在长文本推理时容易激增的KV缓存内存。Gemma 3模型采用蒸馏训练,在预训练和指令微调版本中均比Gemma 2性能更优。原创 2025-03-20 11:00:18 · 82 阅读 · 0 评论 -
Qwen2.5-VL Technical Report
我们推出Qwen2.5-VL,这是Qwen视觉语言系列的最新旗舰模型,它在基础功能和创新功能方面都取得了重大进展。Qwen2.5-VL通过增强的视觉识别、精确的对象定位、强大的文档解析和长视频理解,在理解和与世界互动方面实现了重大飞跃。Qwen2.5-VL的一个突出特征是它能够使用边界框或点准确定位对象。它提供了从发票、表单和表格中提取强大的结构化数据,以及对图表、示意图和布局的详细分析。原创 2025-02-26 15:43:21 · 174 阅读 · 0 评论 -
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
我们介绍了我们的第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练的模型,没有作为初步步骤的监督微调(SFT),表现出卓越的推理能力。通过RL,DeepSeek-R1-Zero自然地出现了许多强大而有趣的推理行为。然而,它遇到了可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,我们引入了DeepSeek-R1,它在RL之前结合了多阶段训练和冷启动数据。原创 2025-02-07 10:41:12 · 749 阅读 · 0 评论 -
OpenAI o1 System Card
本文是LLM系列文章,针对《OpenAI o1 System Card》的翻译。原创 2025-02-06 09:00:00 · 117 阅读 · 0 评论 -
Yi-Lightning Technical Report
本技术报告介绍了Yi-Lightning,我们最新的旗舰大型语言模型(LLM)。它取得了卓越的成绩,在聊天机器人竞技场上排名第六,在中文、数学、编码和硬提示等专业类别中取得了特别强劲的成绩(第二至第四名)。Yi Lightning利用了增强的混合专家(MoE)架构,具有先进的专家分段和路由机制,以及优化的KV缓存技术。我们的开发过程包括全面的预训练、监督微调(SFT)和基于人类反馈的强化学习(RLHF),在这些过程中,我们为多阶段训练、合成数据构建和奖励建模设计了深思熟虑的策略。原创 2025-02-05 10:15:00 · 138 阅读 · 0 评论 -
DeepSeek-V3 Technical Report
我们提出了DeepSeek-V3,这是一个强大的混合专家(MoE)语言模型,总参数为671B,每个token激活37B。为了实现高效的推理和经济高效的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构,这些架构在DeepSeek-V2中得到了充分的验证。此外,DeepSeek-V3开创了一种用于负载平衡的辅助无损失策略,并设定了多token预测训练目标以提高性能。原创 2025-01-07 09:15:00 · 836 阅读 · 0 评论 -
Qwen2.5 Technical Report
在本报告中,我们将介绍Qwen2.5,这是一系列旨在满足不同需求的大型语言模型(LLM)。与之前的迭代相比,Qwen 2.5在预训练和后训练阶段都得到了显著改进。在预训练方面,我们已经将高质量的预训练数据集从之前的7万亿个token扩展到18万亿个token。这为常识、专家知识和推理能力提供了坚实的基础。在后训练方面,我们使用超过100万个样本实施了复杂的监督微调,以及多阶段强化学习,包括离线学习DPO和在线学习GRPO。训练后技术显著增强了人类的偏好,并显著改善了长文本生成、结构数据分析和指令遵循。原创 2025-01-01 09:15:00 · 729 阅读 · 0 评论 -
BayLing 2: A Multilingual Large Language Model with Efficient Language Alignment
大型语言模型(LLM)以其强大的生成能力和丰富的知识,为日常生活中的各种任务提供支持。然而,这些能力主要集中在高资源语言中,而低资源语言的生成能力较弱,知识也相对有限。因此,提高LLM的多语言能力对于服务全球 100 多个语言社区至关重要。增强多语言能力的直观方法是构建各种语言的指令数据,但构建 100 多种语言的指令数据成本高昂。在本文中,我们介绍了 BayLing 2,它通过语言对齐有效地将生成能力和知识从高资源语言转移到低资源语言。原创 2024-12-28 09:15:00 · 172 阅读 · 0 评论 -
SKYMATH: TECHNICAL REPORT
大型语言模型(LLMs)在解决各种自然语言处理(NLP)任务方面显示出巨大的潜力,包括数学推理。在这项工作中,我们介绍了SkyMath,这是一个具有130亿个参数的大型数学语言模型。通过应用自比较微调,我们显著提高了Skywork-13B-Base的数学推理能力。在GSM8K上,SkyMath的表现优于所有已知的类似大小的开源模型,并建立了新的SOTA性能。在数据集MATH和域外数据集CMath上,SkyMath也实现了很高的准确率,对各种数学问题表现出显著的泛化能力。原创 2024-12-26 10:15:00 · 118 阅读 · 0 评论 -
Phi-4 Technical Report
我们介绍了phi-4,这是一个140亿参数的语言模型,使用集中关注数据质量的训练配方开发。与大多数语言模型不同,在大多数语言模型中,预训练主要基于网络内容或代码等有机数据源,而phi-4在整个训练过程中战略性地整合了合成数据。虽然Phi家族的先前模型在很大程度上提取了教师模型(特别是GPT-4)的能力,但Phi-4在以STEM为重点的质量保证能力方面大大超越了教师模型,这证明了我们的数据生成和训练后技术超越了蒸馏。原创 2024-12-19 09:15:00 · 653 阅读 · 0 评论 -
Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent
在本文中,我们介绍了Hunyuan-Large,它是目前最大的开源基于Transformer的专家混合模型,总共有3890亿个参数和520亿个激活参数,能够处理多达256K个token。我们对Hunyuan-Large在语言理解和生成、逻辑推理、数学问题解决、编码、长上下文和聚合任务等各种基准测试中的卓越性能进行了全面评估,其性能优于LLama3.1-70B并表现出可比的性能与明显更大的 LLama3.1-405B 模型相比。原创 2024-12-15 09:30:00 · 231 阅读 · 0 评论 -
GPT-4 Technical Report
我们报告了GPT-4的开发,这是一个大规模的多模态模型,可以接受图像和文本输入并产生文本输出。尽管GPT-4在许多现实世界场景中的能力不如人类,但它在各种专业和学术基准上表现出了人类水平的表现,包括通过模拟律师考试,成绩在考生的前10%左右。GPT-4是一个基于Transformer的模型,经过预训练可以预测文档中的下一个token。训练后的对齐过程提高了真实性和对期望行为的遵守程度。该项目的一个核心组成部分是开发在广泛范围内可预测的基础设施和优化方法。原创 2024-11-22 09:15:00 · 203 阅读 · 0 评论 -
Tele-FLM Technical Report
大型语言模型(LLM)展示了语言理解和生成方面的深厚能力,促进了广泛的应用。然而,如何以最小的试错成本和计算资源有效地将 LLM 扩展到超过 500 亿个参数,详细的开源方法明显缺乏。在本报告中,我们介绍了 Tele-FLM(又名 FLM2),这是一个 52B 开源多语言大语言模型,具有稳定、高效的预训练范式和增强的事实判断能力。TeleFLM 展示了卓越的多语言建模能力(通过 BPB 在文本语料库上进行测量)。原创 2024-11-23 11:00:00 · 167 阅读 · 0 评论 -
TELECHAT TECHNICAL REPORT
在本技术报告中,我们介绍了TeleChat,这是一组参数为30亿、70亿和120亿的大型语言模型(LLM)。它包括预训练的语言模型以及与人类偏好相一致的微调聊天模型。TeleChat最初是在一个广泛的语料库上进行预训练的,该语料库包含来自英语和汉语的各种文本,包括数万亿个token。随后,该模型按照我们描述的详细方法进行微调,以符合人类偏好。我们评估了TeleChat在各种任务上的性能,包括语言理解、数学、推理、代码生成和基于知识的问答。原创 2024-11-20 10:08:22 · 228 阅读 · 0 评论 -
QWEN2.5-MATH TECHNICAL REPORT: TOWARD MATHEMATICAL EXPERT MODEL VIA SELFIMPROVEMENT
在本报告中,我们提出了一系列数学专用的大型语言模型:Qwen2.5-Math 和 Qwen2.5-Math-Instruct-1.5B/7B/72B。Qwen2.5系列的核心创新在于将自我提升的理念融入到从训练前、训练后到推理的整个流程中:(1)在训练前阶段,Qwen2-Math-Instruct用于生成大规模、高质量的数学数据。(2)在训练后阶段,我们通过对 Qwen2-Math-Instruct 进行大量采样来开发奖励模型(RM)。然后将该 RM 应用于监督微调 (SFT) 中的数据迭代演化。原创 2024-11-23 09:45:00 · 138 阅读 · 0 评论 -
QWEN2 TECHNICAL REPORT
本报告介绍了Qwen2系列,这是我们大型语言模型和大型多模态模型的最新成员。我们发布了一套全面的基础和指令调优语言模型,参数范围从5亿到720亿,包括密集模型和混合专家模型。Qwen2超越了包括其前身Qwen1.5在内的大多数先前的开放权重模型,并在语言理解、生成、多语言能力、编码、数学和推理等不同基准上表现出与专有模型相比的竞争性能。原创 2024-07-23 11:15:25 · 648 阅读 · 0 评论 -
QWEN TECHNICAL REPORT
大型语言模型(LLM)彻底改变了人工智能领域,使以前被认为是人类独有的自然语言处理任务成为可能。在本书中,我们将介绍QWEN,这是我们大型语言模型系列的第一部分。QWEN是一个全面的语言模型系列,包含具有不同参数计数的不同模型。它包括QWEN(基础预训练语言模型)和QWEN-CHAT(使用人类对齐技术微调的聊天模型)。基础语言模型在众多下游任务中始终表现出卓越的性能,聊天模型,特别是那些使用人类反馈强化学习(RLHF)训练的聊天模型,具有很强的竞争力。原创 2024-11-21 10:00:00 · 157 阅读 · 0 评论 -
Textbooks Are All You Need II: phi-1.5 technical report
我们继续调查TinyStories发起的基于Transformer的较小语言模型的威力,TinyStoris是一个1000万参数的模型,可以生成连贯的英语,phi-1是一个13亿参数的模型。后一项工作建议使用现有的大型语言模型(LLM)来生成“教科书质量”的数据,作为与传统网络数据相比增强学习过程的一种方式。原创 2023-09-13 11:07:01 · 386 阅读 · 0 评论 -
XGen-7B Technical Report
大型语言模型(LLM)已经在各个领域无处不在,改变了我们与信息交互和进行研究的方式。然而,大多数高性能的LLM仍然被限制在专有墙后面,阻碍了科学进步。另一方面,大多数开源LLM在支持更长序列长度方面的能力有限,这是许多需要对输入上下文进行推理的任务的关键要求。为了解决这个问题,我们训练了XGen-7B,这是一系列7B参数模型,序列长度高达8K,最多1.5Ttoken。我们还对公共领域指令数据上的XGen-7B模型进行了微调,创建了它们的指令调优对应物(XGen-7B-Inst)。原创 2024-11-25 10:00:00 · 163 阅读 · 0 评论 -
Leveraging Large Language Models (LLMs) for Process Mining (Technical Report)
本技术报告描述了流程挖掘和大型语言模型(LLM)的交叉点,特别关注将传统和以对象为中心的流程挖掘工件抽象为文本格式。我们介绍并探索了各种提示策略:直接回答,其中大型语言模型直接处理用户查询;多提示回答,允许模型逐步建立在通过一系列提示获得的知识之上;以及数据库查询的生成,有助于根据原始事件日志验证假设。我们的评估考虑了两种大型语言模型,GPT-4和谷歌的Bard,在所有提示策略的各种上下文场景下。结果表明,这些模型对关键过程挖掘抽象有很强的理解,在解释声明性和过程性过程模型方面都表现出了显著的熟练程度。原创 2024-11-25 09:15:00 · 161 阅读 · 0 评论 -
Qwen2.5-Coder Technical Report
在本报告中,我们介绍了 Qwen2.5-Coder 系列,这是其前身 CodeQwen1.5 的重大升级。该系列包括六款模型:Qwen2.5-Coder-(0.5B/1.5B/3B/7B/14B/32B)。作为特定于代码的模型,Qwen2.5-Coder 基于 Qwen2.5 架构构建,并在超过 5.5 万亿个token的庞大语料库上继续进行预训练。通过细致的数据清理、可扩展的合成数据生成和平衡的数据混合,Qwen2.5-Coder 展示了令人印象深刻的代码生成能力,同时保留了一般和数学技能。原创 2024-11-15 17:12:46 · 328 阅读 · 0 评论