
文本模型Paper阅读
文章平均质量分 96
文本模型Paper阅读
AI专题精讲
更多专题内容,欢迎关注微信公众号:AI专题精讲
最新论文分享网站:www.aizhuanlan.net
数学公式Latex识别: www.aikitbox.net
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
PATHWAYS: 用于机器学习的异步分布式数据流
我们提出了一种新的大规模加速器调度层的设计。我们的系统,PATHWAYS,专门设计用于启用新系统和机器学习研究思想的探索,同时保持当前模型的最先进性能。PATHWAYS 使用一个分片的数据流图,包含异步操作符,这些操作符消耗和生成未来值,并高效地在成千上万的加速器上进行并行计算,同时协调通过其专用互连的数据传输。PATHWAYS 利用一种新颖的异步分布式数据流设计,使得控制平面能够并行执行,尽管数据平面存在依赖关系。原创 2025-05-04 16:34:04 · 938 阅读 · 0 评论 -
FastSpeech2Conformer:ESPKIT工具包在Conformer模型推动下的最新进展
在本研究中,我们介绍了ESPnet:端到端语音处理工具包的最新进展,主要涉及一种最近提出的架构——Conformer,即卷积增强的Transformer。本文展示了广泛的端到端语音处理应用的结果,如自动语音识别(ASR)、语音翻译(ST)、语音分离(SS)和文本到语音(TTS)。我们的实验揭示了使用Conformer在不同任务上获得的各种训练技巧和显著的性能优势。这些结果具有竞争力,甚至超越了当前最先进的Transformer模型。原创 2025-03-04 09:07:44 · 1000 阅读 · 0 评论 -
规模化指令微调的语言模型
在将数据集表述为指令的形式上进行语言模型微调,已被证明能够提升模型性能及其对未见任务的泛化能力。本文探讨了指令微调,特别关注以下三个方面:(1) 任务数量的扩展,(2) 模型规模的扩展,以及 (3) 基于链式思维(chain-of-thought)数据的微调。我们发现,结合上述方面的指令微调显著提升了多种模型类别(如PaLM、T5、U-PaLM)、提示设置(如零样本、少样本、链式思维)以及评估基准(如MMLU、BBH、TyDiQA、MGSM、开放式生成、RealToxicityPrompts)的性能。例如,原创 2025-01-23 11:06:52 · 771 阅读 · 0 评论