基于规范编解码器将LLM用作图像生成器

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
本周精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain?f=cs

1.A Survey on Benchmarks of Multimodal Large Language Models

本文对多模态大型语言模型(MLLM)的基准测试进行了全面的回顾,这些模型在学术和工业领域越来越受欢迎,特别是在视觉问题回答、视觉感知、理解和推理等各种应用中表现出卓越的性能。文章重点关注了MLLM的180个基准测试和评估,包括感知与理解、认知与推理、特定领域、关键能力以及其他模态。最后,讨论了当前对MLLM评估方法的限制,并探讨了有前景的未来发展方向。文章的主要观点是,评估应该被视为支持MLLM发展的重要学科。更多详细信息,请访问我们的GitHub仓库:https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey.
在这里插入图片描述
链接:https://www.aminer.cn/pub/66c2aa2501d2a3fbfc60caee/?f=cs

2.JPEG-LM: LLMs as Image Generators with Canonical Codec Representations

本文提出了一种新的图像生成方法JPEG-LM,该方法利用了自回归语言模型(LLM)的架构,通过将图像和视频表示为计算机上存储的压缩文件,从而将语言生成和视觉生成相结合。与直接对图像的像素值进行建模的方法不同,JPEG-LM通过直接输出JPEG和AVC格式压缩文件的字节来预训练生成图像(以及通过AVC-LM生成视频作为概念验证),采用了默认的Llama架构而无需进行任何针对视觉的修改。评估结果显示,这种简单直接的方法比基于像素的建模和复杂的向量量化基线更有效,JPEG-LM在生成长尾视觉元素方面特别优于向量量化模型。总体而言,本文表明使用标准编解码器表示可以帮助降低语言生成和视觉生成之间的障碍,为未来多模态语言/图像/视频LLM的研究铺平道路。在这里插入图片描述
链接:https://www.aminer.cn/pub/66c2aa0401d2a3fbfc609393/?f=cs

3.T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge

本文介绍了一种新的方法T-MAC,旨在提高在CPU上进行低位宽语言模型(LLM)推理的效率。为了降低边缘设备上LLM的内存占用,关键在于权重量化。然而,低位宽LLM在推理过程中需要进行低精度权重与高精度激活的混合精度矩阵乘法(mpGEMM),而现有系统缺乏对mpGEMM的原生支持,通常需要对权重进行反量化以实现高精度计算,这会导致显著的推理开销。

T-MAC通过使用查找表(LUT)实现了一种创新的方法,直接支持mpGEMM而无需反量化,同时消除了乘法运算并减少了加法运算的需求。具体来说,T-MAC将传统的数据类型中心乘法转换为位方式的表查找,并实现了一种统一且可扩展的mpGEMM解决方案。

实验表明,在低位宽Llama和BitNet模型上,T-MAC能显著提高吞吐量,最高可达4倍。在M2-Ultra上,使用单个核心时T-MAC的令牌生成吞吐量可达30个令牌/秒,使用八个核心时可达71个令牌/秒,而在较低端的设备如Raspberry Pi 5上也能达到11个令牌/秒,这远超过了成年人的平均阅读速度。T-MAC采用基于LUT的计算范式,为在不牺牲计算效率的情况下,在资源受限的边缘设备上实际部署低位宽LLM铺平了道路。该系统已在https://github.com/microsoft/T-MAC上开源。
在这里插入图片描述
链接:https://www.aminer.cn/pub/66835f3301d2a3fbfc715e05/?f=cs

4.FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs

本文介绍了FunAudioLLM模型家族,旨在增强人类与大型语言模型(LLM)之间的自然语音交互。该家族核心包含两个创新模型:SenseVoice和CosyVoice。SenseVoice处理多语言语音识别、情感识别和音频事件检测;CosyVoice则实现多语言、音色、说话风格和说话人身份可控的自然语音生成。SenseVoice-Small提供异常低延迟的5种语言ASR,SenseVoice-Large支持超过50种语言的高精度ASR,而CosyVoice擅长多语言语音生成、零样本上下文学习、跨语言语音克隆和指令遵循能力。与SenseVoice和CosyVoice相关的模型已在 Modelscope 和 Huggingface 上开源,相应的训练、推理和微调代码也在GitHub上发布。通过将这些模型集成到LLM中,FunAudioLLM使得诸如语音翻译、情感语音聊天、互动播客和富有表现力的有声书讲述等应用成为可能,从而推动语音交互技术的边界。可在 https://fun-audio-llm.github.io 体验演示,代码可在 https://github.com/FunAudioLLM 获取。
在这里插入图片描述
链接:https://www.aminer.cn/pub/668b47bf01d2a3fbfc13f9c5/?f=cs

5.MooER: LLM-based Speech Recognition and Translation Models from Moore Threads

本文介绍了MooER,一个基于大型语言模型(LLM)的莫尔线程大规模自动语音识别(ASR)/自动语音翻译(AST)模型。使用了包含开源和自收集语音数据的一个5000小时伪标签数据集进行训练。该模型的性能与其他使用多达数百万小时标注语音数据训练的开源模型相当。同时,在Covost2 Zh2en测试集上的实验表明,我们的模型表现优于其他开源语音LLM,能获得25.2的BLEU分数。本文的主要贡献如下:首先,提出了一种在没有额外人工注释和选择的情况下,使用少量伪标签数据训练编码器和LLM的策略,适用于包括ASR和AST在内的语音相关任务。其次,我们发布了ASR和AST模型,并计划在不久的将来开源我们的训练代码和策略。此外,计划稍后发布一个在8wh规模训练数据上训练的模型。
在这里插入图片描述
链接:https://www.aminer.cn/pub/66b96bb301d2a3fbfcb64935/?f=cs


AMiner AI入口:
https://www.aminer.cn/chat/g/explain?f=cs

  • 34
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值