大模型应用：新时代的多模态交互

最新推荐文章于 2025-04-02 15:36:22 发布

大模型老炮

最新推荐文章于 2025-04-02 15:36:22 发布

阅读量1.1k

点赞数 14

文章标签：大模型学习人工智能学习大模型入门大模型教程大模型

本文链接：https://blog.csdn.net/2401_85375151/article/details/143564234

版权

引言

如果把大模型接入到终端设备，会怎么样？

（1）智能交互回顾

历史文章《[智能交互复兴：ChatGPT +终端（奔驰/Siri）= ？]》中提到：大模型遍布多个应用场景

其中有智能对话和终端设备（手机/嵌入式/脑机接口等），再结合不断壮大的多模态功能（图文理解、文生图、视频理解、多模态交互等），新一代交互方式即将来临。

上一代交互以文本框为主，部分产品虽然支持语音输入，但背后依然是语音转文本，丢失了语速、语气、音色、音量、环境音等信息，导致NLU（自然语言理解）出现偏差。

智能音箱优秀代表：小米小爱、天猫精灵、百度度秘

用户刚开始用，有新鲜感，但时间长了，就会发现又蠢又萌，语言理解能力堪忧，用户不得不跟人工智障battle，斗智斗勇，直到失去兴趣，沦为小孩子玩物。

（2）交互范式变革

如今，大模型时代，信息传播方式开始变化，不再局限于文本框输入，还能：

①真正的语音交互，像人一样读懂语气、情感、语速等，无缝衔接
②输入图片、视频，以及各种传感器
③对话载体也不再是电脑、手机，还是蔓延到各类终端设备。

（2.1）语音模态

语言、语音融合，一步到位，不再拆分ASR/NLU/TTS

【2024-10-26】智谱迈出重要一步，推出自主智能体 AutoGLM 及 情感语音模型 GLM-4-Voice，进一步逼近OpenAI的技术前沿。

GLM-4-Voice情感语音模型不仅能模拟真实情感表达，还能切换多种方言和语气，实现与真人般的对话体验。该模型已上线清言app，并对外开源。

可自助调节语速，支持多语言和方言，并且延时更低、可随时打断

同时，对话方式不再你一言我一语，机械式一问一答，而是真正的全双工模式

【2024-8-5】[全双工对话:大模型能边说边听了]

上海交大开发出新模型 LSLM（Listening-while-Speaking Language Model），实现了真正的”全双工对话“。listening-while-speaking language model
论文 Language Model Can Listen While Speakin

LSLM可以同时说话和听话。AI一边”嘴巴”不停，一边”耳朵”也没闲着

两个关键技术:

基于token的解码器TTS:负责生成语音
流式自监督学习编码器:实时处理音频输入

【2024-8-8】贾扬清的Lepton AI 直接把 LLM 和 TTS 合二为一。

传统系统里，文本和音频排队等处理；
这里文本和语音并行处理，速度嘎嘎快，首次音频时间（TTFA）直接缩水到十分之一，自然无比顺滑。

除了减少延迟，Lepton AI 还引入简化和优化内容处理的高级机制，根据对话内容动态调整音频片段。这样，对话不仅连贯，还超级自然，停顿、中断？不存在！用户体验直接拉满

“Her”梦想照进现实

（2.2）多模态交互

除了语音模态，输入形式还可以扩展到图片、视频、传感器信号、动作等模态。

各种多模态大模型还在快速进化，层出不穷，应接不暇。

（种草，后面再谈）

多模态交互是大势所趋，毕竟人类沟通时，语言并非唯一渠道，有时候只需一个表情、一个动作就完成了信息传递。

神经系统接收和处理外界信息以作出反应、进行通信并确保身体的健康与安全。

神经系统接收和处理原始的外界信息，作出反应、进行通信并确保身体的健康与安全。

环境信息传递到感觉器官：眼睛、耳朵、鼻子、舌头和皮肤。细胞和组织接收原始刺激，并将其转化为神经系统可以使用的信号。
神经将信号传递到大脑，大脑将其解释为影像（视觉）、声音（听觉）、气味（嗅觉）、味道（味觉）和触感（触觉）
其中，视觉信息占比高达90%以上

详见往期文章：《[从人脑到计算机：AGI道阻且长]》

（2.3）载体终端化

电脑、手机不是唯一，未来的交互设备无处不在，电视、玩具、音箱、耳机、手环、项链、别针等。

这些设备确实实际存在，有形，未来还会往“无形”发展，如：脑机接口。

【2024-11-1】B站超级科学晚会上，西工大脑机接口谢松云教授展示如何通过意念控制无人机起降、机械臂操作。

45min处, 带脑电帽操控3台无人机表演，9个指令之一
脑电帽提取脑电波特征，翻译成行为指令
脑电波操控机械臂，抓豆角

详见：https://www.bilibili.com/video/BV1U71LY1EWc

（3）嵌入式设备交互

“无形”的意念交互距离落地还有一定距离，这里先聊聊嵌入式设备这种有形交互。

将大模型植入小型设备/家具/玩具上，我们的生活会变成什么样？

（3.1）玩具交互

【2024-4-9】FoloToy用AI改造传统行业（玩具），原先仅能播放音乐、讲故事的早教玩具，有了更多“玩法”，可实现多语种、多角色扮演对话，并且联网后还能提供丰富的天文地理知识。

「FoloToy」团队接入大模型后，同火火兔玩具厂商推出一款儿童或老人陪伴玩具——Fofo。

【2024-4-27】Living AI公司最新研发的口袋宠物机器人Aibi，蓝牙耳机盒的大小，可以随时随地带着它去任何地方，重新定义智能AI口袋桌宠，时刻陪伴着你

【2024-9-3】[跃然创新把大模型做到毛绒玩具上，AI界泡泡玛特出来了]

找不到商业化落地场景 Agent＋一个简单的Wifi音箱＋儿童喜爱的毛绒玩具，这三个看起来都平平无奇的元素，加在一起

挂在小熊玩偶上的“彩色泡泡”名叫BubblePal，从硬件形态上看像一个可爱版的 AI Friend

小朋友可以自由选择泡泡背后的角色: 爱因斯坦、艾莎公主还是孙悟空等等耳熟能详的动画角色，捏住泡泡就能与其对话；
家长在后端通过手机APP能够获取对话的全部内容，以此来了解3-6岁小朋友的成长和心理健康动态。

这样一个简单的“泡泡”，几乎巧妙地避开了如今围绕着AI的所有难题。

基座大模型能力还不够用？
容易出现幻觉？
Agent 不够像？
用户没有付费意愿？
BubblePal 上线一个月，用户活跃度非常好，用户平均每天使用时长超过了 30 分钟
上线当周，后台收到了大量订单咨询，家长反馈特别强烈。没想过能卖得这么好，日tokens调用量正在成倍地往上涨，上线两周，单日tokens 消耗达到了2亿，现在每日 tokens消耗已经超过了4亿。

（3.2）动手试试

准备AI开发套件，包含：主板、音箱、摄像头、屏幕以及SD卡等设备，可以搭建简易多模态交互设备。

基本配置

LLM：默认科大讯飞13b多模态模型
功能：文本、图片交互，应用场景还有语音翻译、拼写检查、姿态识别等
支持自定义

在这里插入图片描述

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述