多模态语音模型/大语音模型
文章平均质量分 89
语音模型
AI生成曾小健
"AI生成曾小健2"是该号副号。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是AI生成式技术、AI相关技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
如果需要看商科/金融相关的请移步CSDN: 量化交易曾小健(金融号)
展开
-
多模态大语言模型研究进展!
多模态大型语言模型(MM-LLMs)在过去一年取得了显著进步,通过优化模态对齐和与人类意图对齐,增强了现成的单模态基础模型(LLMs)以支持各种MM任务。本文对MM-LLMs进行了全面综述,包括模型架构和训练流程的概述,以及122个最新进展的MM-LLM分类系统。本文还介绍了输出投影器在机器翻译中的作用,并讨论了模式生成器、训练管道SOTAMM-LLM以及未来发展方向。MM-LLMs具有较高的性能,未来发展方向包括扩展模型模式、多样化LLM、提高MM生成能力和开发更具挑战性的基准。原创 2024-07-17 12:29:59 · 1016 阅读 · 0 评论 -
近一年,多模态视觉&语言大模型架构演进汇总梳理
CV开发者都爱看的2024年07月15日 22:00广东作者丨Dreamweaver本文回顾了多模态LLM (视觉-语言模型) 近一年来的模型架构演进,对其中有代表性的工作进行了精炼总结,截止2024.06。这篇综述一张图总结了多模态LLM。原创 2024-07-17 00:37:45 · 984 阅读 · 0 评论 -
Qwen VL架构及其原理[多模态大模型]、OpenCLIP
AnswerQwen-VL是一种多模态大模型,旨在同时处理和理解文本与图像信息。原创 2024-07-08 14:27:23 · 1436 阅读 · 0 评论 -
多模态大模型的一些经验总结
原创 AIGC小白入门记广东。原创 2024-06-24 14:40:38 · 1107 阅读 · 0 评论 -
多模态和多模态大模型
确实,在我众多的讨论中,我深信,多模态系统,尤其是 LMM,将比大语言模型有更深远的影响。我们常见的语言模型是根据前面的文本 Token 来猜测下一个 Token 是什么,但Flamingo 进行了创新,它同时考虑了文字和图片,根据前面的文本和视觉 Token 预测下一个文本 Token。去年,几乎每周都有研究团队推出自己的LMM,比如 DeepMind 的 Flamingo、Salesforce 的 BLIP、微软的 KOSMOS-1、Google 的 PaLM-E,还有腾讯的 Macaw-LLM。原创 2024-01-30 13:26:43 · 1178 阅读 · 0 评论 -
[整理]医学知识增强的多模态基础模型的相关研究
在此次线上分享中,大家可以跟随她的讲述,了解近期关于医学知识增强的多模态基础模型的相关研究,并展望基础模型能够从医学知识增强的角度出发,通过结合医学的强先验背景知识,提取适配医疗场景的多模态数据表征,降低数据依赖,开发出更适合医学领域的成果。为了让大家更细致地了解医疗领域模型的进展,机器之心线上分享邀请到了上海交通大学未来媒体网络协同创新中心在读博士生、上海人工智能实验室智慧医疗研究中心见习研究员张小嫚,以《医学知识增强的多模态基础模型研究》为主题,为大家分享最新研究成果。原创 2024-04-02 15:00:05 · 452 阅读 · 0 评论 -
CVPR 2024 | 多模态大模型幻觉原因找到了!
由于现有多模态大模型的基座取自大语言模型,其因果语言模型的特点使其在浅层时将前文 token 的信息聚合到 summary token,同时在深层时主要利用 summary token 中聚合的信息来预测整个序列的下一个 token(见下图图 a)。研究者们先让多模态大模型根据给定的图作出较长的回答,再根据各个 summary token 出现的不同位置将模型的回答划分为不同的子句,并且计算每个子句的 CHAIR 指标来评估子句中出现幻觉内容的程度。因此,人们不禁思考,多模态幻觉的成因究竟是什么?原创 2024-04-03 14:25:56 · 815 阅读 · 0 评论 -
多模态基础(二):OpenAI经典之作CLIP vs LMM的黎明Flamingo
我的理论是,由于 OpenAI 已经在整个互联网上搜索了他们的 GPT 模型,他们可能只是查询了他们的内部数据库。尽管该模型可以生成文本响应,但在 CLIP 评估的所有视觉语言理解任务上,其性能始终比 CLIP 的最佳性能模型低 10% 左右。由于 CLIP 的训练过程在概念上类似于图像到文本检索和文本到图像检索,因此 CLIP“为图像检索或搜索等广泛应用的任务展现了巨大的前景。从简化的角度来看,Flamingo 是 CLIP + 语言模型,添加了一些技术,使语言模型能够根据视觉和文本输入生成文本。原创 2024-07-23 17:42:58 · 646 阅读 · 0 评论 -
从图像到万象,InternVL 2.0 书生·万象多模态大模型发布!
目录收起代码开源/模型使用方法:76B大模型,司南评测优于GPT-4O8B端侧小模型,消费级单卡可部署试用Demo:正文开始!原创 2024-07-23 16:54:22 · 2041 阅读 · 0 评论 -
支付宝发布多模态医疗大模型,联合20家机构启动AI医疗共建计划
在2024世界人工智能大会“可信大模型助力产业创新发展论坛”上,支付宝展示了其在医疗领域的AI技术进展:发布多模态医疗大模型,并推出多款数智化解决方案,包括医疗可信一体机和可信云。大会现场,支付宝、人民卫生出版社、北京大学医学部、浙江省卫生健康委、厦门市卫生健康委员会、浙江省人民医院、上海交通大学医学院附属仁济医院、北京大学人民医院、复旦大学附属肿瘤医院、上海市第一人民医院等20多家机构和企业联合发起了AI医疗共建计划,共同探索大模型应用及各类专科模型的创新研发。LLM评测榜单promptCBLUE。原创 2024-07-08 12:07:11 · 872 阅读 · 0 评论 -
厦门大学首发多模态阅读理解新任务: 图文深度融合数据集VEGA
多模态大型语言模型(MLLMs)的高速发展彰显了其在处理图文信息方面的强大潜力。然而,目前的多模态模型和方法主要集中于处理基础视觉问答(VQA)任务,这些任务通常只涉及与问题强相关的有限图片和文本信息。在实际应用中,尤其是文档理解领域,模型经常需要处理更为复杂的图文混合输入,这些输入不仅长度更长,而且可能包含冗余甚至误导性的信息。现有的主流MLLMs在处理此类复杂任务时表现不佳,且缺乏相应的Benchmark来评估模型在这些任务上的性能。近日,来自厦门大学纪荣嵘团队提出了一个全新的。原创 2024-07-08 14:04:23 · 727 阅读 · 0 评论 -
字节提出 MammothModa | 超越 LLaVA,集成视觉能力的多模态大型语言模型 !
这一令人印象深刻的排名得到了作者的消融研究结果的证实,其中动态分割方法和视觉专家(VE)模块的融合显著提高了模型在视觉任务上的性能,同时保持了强大的语言能力。尽管其简单,但随着分辨率的提高和视频帧数的增加,ViT生成了大量的标记,这对后续的LLM处理提出了巨大的挑战。,以推动当前模型的边界。此外,作者的实验表明,这种策略支持在推理过程中动态池化,例如在训练时使用池化,在测试时使用池化,这在不牺牲性能的情况下提高了推理速度。因此,对于大量的高分辨率长时视觉特征,LLM的有限位置嵌入是不必要的浪费。原创 2024-07-11 17:26:44 · 539 阅读 · 0 评论 -
阿里开源语音大模型:SenseVoice 识别,语音识别效果和性能强于 Whisper,还能检测掌声、笑声、咳嗽等!
语音识别技术在人工智能(AI)领域扮演着至关重要的角色,它不仅是人机交互的基石,也是推动智能系统发展的关键驱动力。:在医疗领域,语音识别可以帮助医生在诊断过程中记录患者信息,减少手动输入的时间,同时也可以辅助听力受损的患者与医疗人员沟通。拥有完善的服务部署流程,能够处理多并发请求,并且支持多种客户端语言,包括 Python、C++、Java 和 C# 等。:通过语音识别,用户可以与智能设备进行自然语言交流,无需手动输入,这极大地提升了用户体验的便捷性和直观性。能够识别音频中的情感,比如,积极和消极等。原创 2024-07-06 10:45:56 · 2714 阅读 · 0 评论 -
阿里巴巴发布语音模型:Qwen2-Audio
我们介绍Qwen-Audio的最新进展:Qwen2-Audio。作为一个大规模音频语言模型,Qwen2-Audio能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本。我们介绍两种不同的音频交互模式:语音聊天voice chat和音频分析audio analysis。[2] 论文:Qwen2-Audio Technical Report:https://arxiv.org/pdf/2407.10759。音频分析:用户可以在互动过程中提供音频和文本指令对音频进行分析;原创 2024-07-18 18:05:45 · 227 阅读 · 0 评论 -
全球首款“开源GPT-4O”雏形横空出世,{最佳绝配}非FunAudioLLM&LLAMA3莫属!
两个开创性模型。原创 2024-07-10 10:03:40 · 1094 阅读 · 0 评论