360集团孙浩：大模型重新定义儿童手表_360 ai手表gpt大模型技术架构-CSDN博客

本文链接：https://blog.csdn.net/chaoshengb/article/details/141164426

2024年7月27日，第三届超声波俱乐部AI Open Day“2024垂直引爆：AI教育引领AI应用大爆发”在北京360总部成功举办。本次峰会聚焦AI教育领域，二百余名教育与AI领域的创始人，投资人，知名教育集团的创始人、CTO、AI负责人等现场出席。

360智慧生活集团副总裁孙浩进行了一场精彩的分享，以下为孙浩的分享整理：

主题：大模型重新定义儿童手表

嘉宾：孙浩 360智慧生活集团副总裁

7月8日，我们发布了全球首款搭载大模型的儿童手表——360儿童手表A9 AI红衣版。发布会后，我对怎样看待新技术、新产品，以及对外的公众表达方面，有了很多新的感悟。今天来的都是行业内的朋友，我想把一些偏技术和产品的内容以及背后的故事稍微展开讲讲。

周总之前做过预测，2023年是基础大模型突飞猛进的一年。去年大家都在卷大模型，我们的一个工作重点是做多模态的视觉大模型，并发布了360的视觉大模型，战略聚焦也更多的是在安防上。

多年来，我一直围绕硬件和AI的结合进行探索，手表是其中一个场景。总的来说，这些年做产品属于越做越自闭的类型，尤其硬件这两年在创投圈比较冷淡，而大模型已经千模大战、万模大战。做大模型的门槛非常低，尤其是以Llama为代表的大模型开源后，出现了一堆Agent的创业公司。

接着，很多公司进行了大模型+智能硬件的尝试，但每个硬件都有自身的定位，在没有达到对应的技术或场景积累的时候，不要硬拔它。做一个硬件就能够彻底颠覆某一个品类的预期太高了，但换到很多垂直场景里可能会完全不一样。把现有的能力增强以后，一样能够取得非常好的效果。

当然，我们也在反思两个问题。第一，大模型需要什么硬件？第二，我们是否又盲目地说做了一个革命性的智能硬件？世界上这种革命性的机会一定有，但往往是极其稀缺的，不可能随便做一个就能颠覆一个产业，更多的还是要找准这个场景的真实需求，把这个场景限定好，把这个场景里面限定的功能做齐，再有了大模型这样一个强有力的工具之后，能切实解决一些问题，这才是合理的。

AI是不是会取代人类？我们认为，在整个大模型技术不可逆转的今天，更明确的观点是：会使用AI工具的人会取代不会使用的人。所以，如果00后是互联网原住民，那么现在的孩子就是大模型的原住民。

这也带来了新的焦虑：未来大模型技术不断发展的情况下，这批原住民真正步入社会的时候，给他们的空间还有哪些？我们希望手表能作为一个切入点，让孩子在和大模型的交互过程中，学会探索世界并激发好奇心。

为了做好产品，我们一直考虑的是，如何在孩子的成长过程中将技术有温度地结合，给孩子打造一个强大有耐心的AI伙伴，能够伴随他成长，引导他持续地学习向上。

从2014年360在行业内首创儿童手表这一新品类开始，我们的核心定位逐渐从安全转到沟通，直至今天进入大模型时代。

2016年，我接到了做一款革命性的儿童手表的任务，当时无知者无畏，对儿童手表的基本认知是：这是孩子唯一的通讯设备，本质上是孩子的小手机。但那时候很多儿童手表的产品都做了一个低龄化的外观，比如有对小耳朵，甚至连正常的屏幕都没有。大家会天然从成年人的视角出发，觉得小孩就应该用一个非常低幼的卡通化的东西。

可调研发现并非如此，7岁是孩子很重要的时间节点，孩子7岁以前独立意识很弱，7岁以后独立意识增强。我们认为反正都是孩子，但实际上有很多细分在。我当时的认知就是儿童手表需要在一定程度上成人化，起码在硬件配置和形态上需要成人化。现在来看，那时的认知是成立的。

2016年做这款手表的时候当然没有普通手表那么成人化的外观，但功能已经相对多样化了，其中第一个核心的功能就是语音交互。因为我们判断儿童手表上如果出现杀手级的应用，那第一个肯定是语音交互类的应用。当时我们面临的挑战是怎样把语音交互面向孩子的场景做好。

虽然当时很多语音助手呈现出来的是科技感，但我第一天做儿童手表上语音交互功能的时候，拒绝给用户呈现任何生硬的科技感。手表上屏幕一滑，跳出来的是一只可爱的宠物形象，叫巴迪龙——这个形象一直保留到现在。巴迪龙会吃饭、跑步，还可以升级等等，我们给它运营了很多有趣的动作。

受限于传统的语音处理技术，我们遇到了非常多的挑战。比如做一些兜底回答的时候，我们最常见的兜底回答是：“抱歉这个问题我不会，你可以问一下你的爸爸妈妈。”但如果总是给孩子说这个，孩子会感觉很无趣。所以我们也做了一些新的尝试，比如“哼，你今天的话怎么这么多，你是个话痨吗？”这种方式反而更能激发孩子的沟通欲望。

后台的数据显示，和巴迪龙的互动已经是用户最常用的功能了，而不是打电话或者给妈妈发消息。78%的用户每天会用巴迪龙、跟巴迪龙对话。平均每天能到20轮以上，15分钟以上；周末节假日能到30轮以上，30分钟以上。从发布到现在我们服务端已经超过了50亿次的调用，那么多年来即使没有大模型我们也一直在做这个事情。

另外，我们做了很多小功能，比如巴迪龙不会的部分会在家长端生成问题记录，我们的预期是家长能够知道孩子对什么信息好奇，然后在跟孩子沟通的时候告诉他。

其中有一个案例令我印象深刻。一位单身父亲曾向我们发了一个巴迪龙不会的问题记录截图：爸爸妈妈离婚了我该怎么办？原来这个父亲认为，给孩子买最好的东西，让孩子用到最新最酷的数码设备就是对孩子好，但是实际上缺失了对孩子内心的关怀。此事对他产生了触动和反思，我也第一次察觉到这一功能背后蕴藏的温度。

后来，为了使巴迪龙更具个性化，我们尝试做了一些生成式的聊天算法，但也踩了许多坑。首先由于技术局限，我们只能精准地去找一些问答去做训练，比如论坛里的对话，但要花很大力气去清洗数据。清洗完后，发现生成的内容还是不可控，于是我们又做了一些限制性的问答，同样花费大量人力，清洗出一个干净的语料库后再做训练。结果这样下来，整个聊天会变得很无趣。我们不断地在尺度和安全性之间反复徘徊，所以当时做到最后，我们还是去掉了生成式闲聊这个功能。

但是，孩子本身说话经常没有逻辑性，他们的很多问题也是偏娱乐性的，对答案的预期要求没那么高，所以生成式闲聊功能一直以来也深受孩子的欢迎。

去年大模型火了之后，我们发现机会来了。但问题也随之而来，核心是幻觉问题，如果没有检索增强或图谱类的技术，这种幻觉问题会持续存在。比如我们之前用的ASR技术，都是三段式的，先要ASR转文本。这样就很受局限，哪怕你的知识库匹配的是对的，但它前头的ASR识别不出来你也没办法。但今天，大模型有很好的输入的冗余能力，即使它输错了，一样能够很好地去理解回答，有了很大提升。

另外，现在大模型的上下文窗口对于一个聊天应用来说，也足够把上下文串起来了。以前没办法真正做到跨场景的多轮聊天，但孩子跟它聊15到20轮的时候，它也能够串起来，之前一直困扰我们的聊天功能终于实现了质的飞跃。

但我们仍然很慎重，担心幻觉问题的出现，比如大模型可能会说“风吹草低见牛羊”是杜甫写的。于是我们没有着急抢概念，而是认认真真做了八九个月的时间，慎重地做一些探索。

我们目前的儿童手表，严格来说有一个系统级的入口，这个入口还是巴迪龙。孩子有一个伙伴的形象，就会愿意去跟它沟通交互。

巴迪龙有它自己的人格，背后是统一的基座大模型360智脑。因为是内部团队，合作起来比较顺畅，整体还是基于智脑来做。后面我们也会渐渐开放，并不要求一定是智脑，我们基于智脑做好意图的分发。如果有一些比较好的三方场景应用，我们分发也会用外部的大模型，并不完全局限在智脑，但作为一个基座大模型串起所有功能。

因为你上了云助手，传统的通过语义处理的实现或订闹钟、查天气，一些本地的功能操作还是要在的，包括一些细分场景，写作文这些东西，调不同的功能，所以说也有一套针对手表上的专用的Agent。

最后，为使聊天功能有组织有逻辑地呈现，并突出显性卖点，我们包装了9个场景，有类似于英语老师、语音老师，孙悟空、爱因斯坦这样一些角色的形象呈现。我们通过预设的prompt和一些数据的微调对齐，尝试做了一些孩子的核心场景。

我们给手表的定义就是一个随身携带、偶尔问一句的伙伴，它并不是一个老师，而是一个助手。随身陪伴、随身携带是它最大的优势。

我们的基本思路不是说在手表上装一个360智脑的APP，而是通过底层的技术做一个AI-Native的实现，围绕孩子的生活学习场景，把语言模型、视觉模型结合好，揉到一个场景里，解决孩子的一些问题。

例如爱因斯坦的相对论怎么解释给孩子，我们花了很大的精力让它去做总结做抽象，保证把它的字数压下来，可以几句话就把核心的东西说出来，不求全，但求简单，让孩子能听得进去。

其实孩子没有人盯着，很难自觉学习。所以我们的核心还是将一些日常的场景和教育的需求融合起来。比如我们的手表上有多模态大模型，手表可以拍照，拍完照之后它就会把这个照片描述出来，还能生成对应的英语，也可以针对这个照片做一些问答。

孩子在探索的过程中满足好奇心，又顺带学到知识，是我们希望手表扮演的角色。我们发现，很多时候孩子会用手表问作业，但我们始终坚持的一个原则是，给思路要比给答案重要，给素材要比给结果更好。

比如孩子问怎么写一个苏州的作文，它会告诉你写作思路，要怎么打头，怎么写中间，怎么结尾，给他几个参考的素材，最后给他一些参考的标题，让孩子自己去组织，可能80%的东西已经给出来了，但它是零散的，孩子在组织的过程中也会自主思考，而不是盲目去抄，这就是我们在教育功能上的思考和体现。

既然孩子没有那么强的自律力，那么我们的思路就是抓住他有限的问问题的机会。但凡他主动问一次，就不要把这次机会浪费了，要举一反三，不断延展给他塞更多的东西进去。因为手表这个形态，本身占用的就是孩子的碎片时间，很难强制孩子对着手表做系统化学习，所以怎样把这些碎片时间利用好，是做这个产品的核心。

视觉大模型能展示出它的认知能力，知道某个图片的笑点在哪里。但在实际生活中，我们很难找到一个人对着图片问问题的场景。我们在安防场景里面应用多模态大模型，有设定好的程序，对每个店铺巡检的图片，自动问问题打分出来。但儿童场景的核心，就是为了满足孩子的好奇心。

如何保持孩子的好奇心不被磨灭呢？是及时正向的反馈。所以，去年我做的多模态视觉大模型就派上了用场，我们把对图像问答的场景放到手表里面，孩子看任何一个东西觉得不理解的或者想知道什么问题，都可以直接拍照。比如孩子去一些名胜古迹，或者看到一些花草，问这是什么的时候，大模型会结合相应的知识告诉他。做这个功能的核心目的，是满足孩子好奇心的场景，这具有非常大的价值。

虽然我们做了大语言模型的问答，也做了多模态视觉的理解，但更成熟的一个技术是AIGC，通过语言文字来生成图像。以Stable Diffusion、Midjourney的文生图工具在过去一年发展迅速，已经广泛地应用到很多创作场景，但是往往需要复杂的提示词，像咒语一样。

现在还有很多人做Agent，去生成Midjourney的咒语。而我们做的，是把科技隐藏起来，所以做了很多后台的工作，都是为了让孩子专注描述他想要的东西。孩子随便说一句话，就能生成图片。我们也在思考怎样引导孩子，一定程度上孩子要发挥想象，然后通过交互来训练和延展自己的想象力。

孩子们追求个性张扬，会把生成的图片用做头像，而成本也远超我们预期，因为他们换头像特别频繁。现在画图的成本是比较高的，后台发现每个孩子平均一天换头像7、8次，这导致我们服务端的成本飙升，原来认为一年的成本可能是40多块，目前最新的数据统计下来，一年服务器成本会到70多块。

安全方面，孩子私下聊的内容涉及到一些危险想法的，或者有安全风险的，我们也在做一些防范行动。我们和一些机构有合作，针对孩子常见的心理问题做了定义，然后用大模型根据对话记录做一些区分和识别。像孩子提到的父母离婚问题，及某些相对危险的点是可以告诉家长的，能够对于孩子有及时的干预和关怀，这是一个前沿性的探索。