多模态+大模型,如何构建人形机器人新交互?

前言

2024中国人形机器人生态大会演讲实录整理。

在4月2日的「2024中国人形机器人生态大会」上,多名人形机器人产业链企业代表齐聚,就人形机器人产业前沿话题,市场风口与落地方向等维度作了精彩分享。

其中,科大讯飞开放平台研发总监刘可为围绕「多模态+大模型,构建人形机器人新交互」这一主题,展开了主题演讲。

在这里插入图片描述

以下是本次演讲实录,「中国机器人网」整理删改:

在过去一年半时间里,伴随着大模型的横空出世,人工智能在全社会取得广泛关注。过去我们认为人工智能是高高在上,不接地气,是某些高端应用锦上添花的功能模块。现在,人工智能开始真正走向大面积生产和实践,以大模型为代表的通用人工智能发展正在快速推动我们进入第四次人工智能浪潮。

人工智能的发展尤为瞩目,特别是以具身智能为代表的人形机器人,已经成为人形机器人发展的重要和头部力量。

其实,这种新的趋势正在推动着机器人走向更纵深的应用场景。这种更纵深的应用场景意味着用户对于机器人的要求越来越高,特别是当整个机器人的形态从传统的机器人开始向人形机器人转变时,这就要求我们的人形机器人一定要具备一套非常强大的人机交互系统。

人机交互说出来是比较泛的概念,它的使用门槛非常高。如果每一家机器人厂家都从0到1研发,超多研发资源的投入与获得的成效往往不成正比。所以,业内急需一套规范标准面向未来人形机器人的交互解决方案。

我今天带来的就是这样一套解决方案。它由三个部分构成,首先是视听融合的感知交互,然后是基于大模型的机器人大脑,以软硬件一体的形式进一步做了封装,使得机器人厂家集成我们这套产品时能够变得更加便捷。

首先是感知,要想和机器人实现智能的交互,第一步就是让机器人能够听清我们的交互内容。现在整个机器人的交互依然是基于麦克风阵列,它通过我们的波束对内部声音进行做增强,外部声音做抑制。

但是,传统的算法波束形成角度太宽,它所带来的最直接影响就是主说话人两侧的噪声很容易录进去,导致机器人在稍微复杂的环境下几乎不可用。我们加上了神经网络,从而大幅限制了正向方的角度,从60度变成30度,两侧的噪声得到了抑制,能够在比较恶劣的场景下实现比较好的交互。

前面提到的窄波束,经过时间的验证能够比较好地抑制两侧的噪声。但是,在实际生产过程当中,前后人声的噪声则是更为普遍和棘手的现象。一来,这种现象广泛存在于生产当中,除了非常安静的家居环境下,鸡尾酒环境攻克难度非常难,依靠传统的声学比较难做到提升。

我们加上了摄像头,通过引入人脸,实时进行嘴巴检测和实时声音检测,录音信息加上物体跟踪,这三个系统进行融合,画面中只听他的声音,其他人声音完全屏蔽掉。

如何让机器人听得更清?我们拿机器人做语音交互更多需要把音频转成文字,大模型对于语义体现业内都有目共睹,它的整套基于神经网络大模型的方案,为我们做语音相关的能力提供了非常好的技术路线和思路。

传统语音识别模型的参数和体量非常有限,我们现在可以做到多语种的联合建模,实现多种语言的识别,而且通过多语种的联合建模,还得到了意外的呈现,因为大模型具有足够大的视野和窗口,能够看到上下的信息,我们把语义识别带到语音识别当中,使语音识别内容更加提升。

现在我们的讯飞星火语音识别大模型,已经远远超过了我们讯飞基线的效果。无论是音质、音色还是流畅度,几乎可以媲美专业主播的声音。越是完美无瑕的声音越容易给顾客产生距离感,科大讯飞构建了超拟人口语化的合成,具备拟人化程度,能够模拟人对话情况下的思考停顿等。交互链路变长了,使得我们整个交互时间控制在200毫米以内,真正达到商用水平。

讯飞超拟人语音合成技术更加有人情味,如果我们的机器人都能够发出这样的声音,它传递给用户的就不再是冷冰冰的数据信息,而是情感和思想的共鸣。

前面讲到语音合成,下面我们讲一下发言人的定制。如果想定制自己特色的声音需要多少的成本和多长的周期?针对这样的问题,我们现在的目标是只需要一句在30字以内的话,就可以生成专属于你的发言人,同时基于这样的音色复刻4种语音。

前面我们提到都是基于对话机器闲聊的场景,比如说陪伴型机器人需要给我们讲长故事,短文本我们更多关注它的口语化、亲近感,长文本我们更多需要有上下文的理解,基于上下文的理解将整个故事说得绘声绘色。我们实现了整个长文本的合成在音质、音调和情感转折上都能够达到拟人化程度非常高的水平,真正实现声情并茂。

现在机器人众多,场景也非常复杂,如何将这些能力整合起来?我们通过已有的AI传感能力形成的一套多模态交互下的指导规范,能够比较准确地根据客户的需求和场景快速地帮他定制出一套比较贴合的多模态的交互逻辑,让整个机器人的交互变得更加自然,这是基于多种模态的技术应用,构建机器人内容的交互范式。

前面需要的是基于视频感知交互,那么怎么样将大模型超强的语义理解用到机器人上?一方面是理性的部分,希望机器人帮我们完成特定的任务,包括信息查询、指令操作等;另外一方面,我们对机器人有感性的诉求,希望机器人能够进行多轮的对话,并且感知我们的情绪,结合我们的情绪提供情感的呵护和陪伴。

基于整个人机对话领域,我们做了定向增强大模型。作为讯飞机器人大模型的底座,它的输出会更加的贴近人机交互产品的输出。这里需要强调的是我们的星火交互大模型。星火交互大模型深度融合到过去人机交互的链路,不同功能模块对应单点的大模型,最后形成人机交互体系。通过这样一套体系可以实现:既保留原有语音交互准确性,也大大放大了它的对话能力。

文档知识问答大家比较熟练了,我们这套文档问答体系比较核心的特点:针对人机交互的特点,定制了线下检索模型,大幅度提升了检索效率,并且有一些关键词和知识干预,后续也会进一步升级。因为大模型本身具备的知识理解和对话能力,整个闲聊对话体验就会变得非常自然。我们现在说的智能交互产品,风格化和情感化是核心非常重要的点。

什么样的产品叫智能化产品?不同的定制化产品体验是智能化产品的重要点,星火交互大模型里内置了星火有伴,使得这一套大模型不仅和用户有风格和情感化的对话聊天,并且能够形成用户短时和长时的记忆。同时,我们为这套记忆设定衰减参数,完全模拟人的交互体验,真正让机器人有了灵魂,这是在风格化和AI人设化做的一些工作。

最后我们再来看一下软硬件接入一体的解决方案,人机交互非常复杂,为了降低接入门槛,它的算力足够支撑人形机器人的应用。人机交互的算法全部集成到这一套模组上面,支持二次开发。整套的所有技术平台和能力,背后都是依托于讯飞的超脑平台,坚持面向机器人提供多模态的感知交互、开放式语义理解以及软硬件的交互方式。

我们深知机器人产业的发展离不开整个生态,因此,我们坚持共生共创共享的理念,包括工业设计大赛,开发者论坛,服务市场,创业孵化等等,通过一系列丰富多样的活动和大家形成紧密的关系。在未来,我们将通过讯飞倡导2030年计划不断加强技术和产品创新,联合大家一同探索人机合作的无限可能。

那么,如何系统的去学习大模型LLM?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

篇幅有限,部分资料如下:

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点,扫盲必看!
在这里插入图片描述
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥《中国大模型落地应用案例集》 收录了52个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)
在这里插入图片描述
💥《2024大模型行业应用十大典范案例集》 汇集了文化、医药、IT、钢铁、航空、企业服务等行业在大模型应用领域的典范案例。

在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)
在这里插入图片描述

👉640份大模型行业报告👈

💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式:

这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

### 人形机器人地形建模技术与方法 在人形机器人的研究领域中,地形建模是一项至关重要的任务。为了实现高效稳定的运动规划和控制,机器人需要能够感知周围环境并建立精确的地貌模型。以下是几种常见的人形机器人地形建模技术和方法: #### 1. **基于传感器的数据采集** 人形机器人通常配备多种类型的传感器来获取地形信息。这些传感器包括但不限于ToF相机、IMU(惯性测量单元)、FSR(力敏电阻)以及激光雷达等设备[^3]。 - ToF相机可以提供高分辨率的距离图像,从而帮助识别地面的高度变化。 - IMU通过检测加速度和角速度,间接反映机器人脚部接触面的状态。 - FSR则用来监测足底压力分布情况,进一步辅助判断支撑表面特性。 #### 2. **状态估计与滤波算法** 由于单一传感器可能存在噪干扰或者精度不足等问题,因此往往采用组合方式并通过高级信号处理手段来进行综合分析。卡尔曼滤波器是一种常用工具,在这里被应用于融合来自不同源的信息以提高准确性。 例如,当多个输入通道共同作用于同一个目标变量时——比如位置或姿态参数,则可以通过设计合适的观测方程组配合预测更机制完成最优解算过程;这样不仅减少了随机误差影响还能增强系统的鲁棒性能表现。 #### 3. **数学表达形式的选择—Twist的应用** 除了硬件层面的支持之外,软件部分同样扮演着不可或缺的角色之一便是如何恰当地定义物理量以便更好地服务于后续计算需求。其中,“twist”作为描述刚体运动特性的核心概念之一广泛存在于现代工程学科当中尤其是涉及动态系统仿真模拟方面更是如此[^2]。 具体而言,它可以同时携带关于平移方向上的分量以及旋转角度方面的数值属性进而形成统一框架下的表述结构有利于简化复杂场景下轨迹生成逻辑的设计思路同时也便于与其他模块接口对接操作执行效率提升明显可见一斑。 #### 4. **多模态数据融合网络架构实例说明** 最后值得一提的是实际应用过程中往往会构建起更加复杂的整体解决方案即所谓的“多模式数据集成平台”。如下图所示展示了这样一个典型例子:由各个独立子单元分别负责特定功能之后再经过层次化连接最终汇聚成完整的闭环控制系统。 ```plaintext IMU -> Kalman Filter -> State Estimator <- FSR, ToF Camera -> MPC Controller ``` 上述流程清晰地体现了从原始资料收集到高层次决策制定整个链条之间的相互关系及其内在联系规律特征等内容要点所在之处值得深入探讨学习借鉴吸收转化利用起来创造更大价值回报成果出来才行啊! ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值