AI大模型数字人大规模商用，技术已经不是难点

猿类崛起@

已于 2024-05-07 18:17:41 修改

阅读量643

点赞数 8

文章标签：人工智能机器学习神经网络自然语言处理计算机视觉语音识别数据挖掘

于 2024-04-25 10:13:18 首次发布

本文链接：https://blog.csdn.net/2401_84495872/article/details/138180855

版权

京东创始人刘强东啊，他昨天又加班了。

准确来说，是他的AI数字人形象“采销东哥”，昨晚开启了自己生涯第四场直播。

这次东哥干的是图书采销工作。

与上两次直播不同，这一回直播间不仅有了数字人助理，还有多机位切换等展现方式。与此同时，和留言区及屏幕前观众的互动方式也有所增强。

量子位就此事询问了京东云言犀算法总监，得到答案是：

每一场想侧重表示的不一样。技术的手段比较丰富，很难一场里面都推出来。

不得不说，京东这回拿自家的京东云言犀数字人挤牙膏，还挺有自己的节奏（doge）。

一周时间里，四场刘强东数字人连播，可谓出师大捷——

据公开的“战报”，其首秀不到1小时，直播间观看量超2000万，带货GMV超5000万。

难怪网上冲浪的时候，有人评价道，AI东哥真的是“数字人带货的天花板”了。

而且京东自己放话，这就是京东云言犀数字人的平均技术水平，且成本不到真人直播的1/10。

“自己的狗粮自己先吃”

刘强东AI数字人“采销东哥”上播第一天起，就有许多质疑。

质疑一，真的是数字人吗？真的不是让刘强东提前坐那儿，录好视频然后再播吗？

且看采销东哥的表现：

形象和真人刘强东几乎一毛一样，寸头、西装、左手腕带表，肉眼难辨真伪。

口音能较好贴合唇部动作，语速快、连音多，一般语句吐字较轻，一些重点会重音表强调，寻求认同时用“啊”来衔接；耳朵尖的朋友可能还能听出他的宿迁口音。

动作姿态不算僵硬，能有头部、手部的动态动作，且动起来后整个人也受光均匀。

但随着直播场数的增加，这种疑惑声渐渐下去了。

可能大家都觉得，是在没什么可能让刘强东忙中拨冗，每天坐在那儿提前录播吧。

质疑二，如果真的是数字人刘强东，那大伙儿看到的效果，会不会是面对自家一号位做的“特供版”？

换言之，其他公司如果同样想用京东云言犀数字人来做主播，是不是根本达不到这个效果？

就这个问题，京东云言犀负责人是站出来给了解释的：“刘总数字人技术，代表了我们现在的通用技术。”

大白话就是说，用了京东云言犀数字人，所有的大V/CEO主播都能有同样的这个效果，至少在120秒之内“惟妙惟肖”。

如果不信，可以亲自验证——前段时间京东618招商，给所有品牌商家免费开放了数字人基础版使用30天权益，都能用上。

京东云言犀负责人笑着表示，去年京东云就已经基于言犀大模型升级了数字人技术。

用句软件公司的梗，“Eat your own dog food”，自己的狗粮自己先吃，最开始团队内部先给京东云言犀负责人做了个AI数字人出来，但回头看和现在刘强东的数字人没法比。

2022年开始，京东云言犀数字人就已经开始商业化，目前有4000多家品牌使用。

去年双十一后，京东云言犀团队开始制作采销AI数字人，首先是在大时尚事业部测试，包括公众接受程度，停留时长，用户转换率，交互程度等。

团队心想，既然要追求刺激，那就把“Eat your own dog food”贯彻到底，干脆给公司老大也搞一个吧！

刘强东AI数字人“采销东哥”就这么诞生了。

10亿参数数字人大模型轻量上阵

采销东哥身后，是京东云言犀大模型团队，及其大模型做小后打造的10亿参数数字人大模型。

总的技术来看，言犀2年多前就选择了端到端的方式，即建模——驱动——渲染的一体化。以至于Sora出来后，团队惊喜发现端到端的技术方向是可取、可喜的。

不过，虽然和Sora是同一条路子，但最后应用的场景不太一样，言犀大模型数字人的赛道更聚焦，专注人物生成（原因是团队评估人物视频生成商业价值和社会影响力可能都更大）。

而关于端到端的路线，这里展开说两句。

现在基本分为两大类，一类是完全端到端，中间不对任何环节进行显示的建模，完全是隐性的，都在一个空间里面做；另一类是对简单基本素材的人脸建3万多个点Mesh模型，再去控制人物的表情、唇型，然后做纹理的渲染。

京东云言犀说得很明白，2种方案会根据场景需求做不同使用。

京东云言犀负责人表示，其间比较得意的是人物大姿态的动作。

“早期真人数字人，动作幅度比较小。基本上脸部不会怎么动，因为一旦头动了，可能就剩半个嘴唇了。”他透露，在大姿态方面做了较多技术投入，才有了现在AI刘强东的活动自如。

在这里插入图片描述

此外，身为主播，语音表达无疑也十分重要。

既要复现真人主播的语音、语调，又要学习真人说话的习惯，如语速、语调、重音、倒吸气。

就拿刘强东本人来说，他讲话很少有辅助词，也较少清晰读出连接词，如“跟着”的“着”字经常被一笔带过。

因为出生江苏宿迁，他的话语里还是会“露馅”，冒出宿迁口音来。比如“时间”中的“sh”会有更重的鼻音；后鼻音有时会被吞掉，变成前鼻音。

就，还挺有特色的。

原本呢，京东云言犀技术团队的计划是用刘强东2017年的一段演讲音频作学习素材，但测试发现，演讲时刘强东的语气太过正式了，和直播带货有点画风不搭。

团队无奈把刘强东“抓”到镜头前，录了30分钟的音视频，让他闲聊自己的经历什么的。

用这段音频为底提取出声学特征，就能通过已经被喂了5万小时语音数据训练的言犀语音大模型合成出人工语音。

不过据量子位了解，京东云言犀大模型团队的最新战绩，是使用6秒素材复现具体某个人的声音。

团队成员还分享了其他一些关于AI数字人背后的事：

训练过程中，主赛道锚定人物向，因此不管是从数据的采集、清洗和各方面都做了精细化聚焦。

推理实现方面，除了模型代码压缩、量化等常规操作，还对INT4和INT8进行了精度调改。

团队下一步计划，是把语音、视频生成两块综合到一起。

当然，另一部分挑战是尝试用非常小样本或零样本学习的方式就能抓住真人本尊的特点，继而生成惟妙惟肖的数字人。

“采销东哥是京东数字人平均水平”

京东云言犀负责人表示，其实京东内部对数字人有一个分级。

第一级的数字人效果，可以做真人的补充工作，处于向真人看齐阶段。

第二级数字人可以媲美真人，真人不在，也可以承担重要场合、重要时间的主播工作。

并且播出后，会有人分不清主播是真是假——从这个角度来说，图灵测试应该算是通过了。

不过，虽然在形象、表情、语音、动作复刻尚佳，但是本尊的深度思想，大模型数字人还没有办法1:1同步。

到了第三阶段，本尊和数字人之间不是替代关系，更像是真人有了个数字分身，能够真正深度抓住本尊的思想、文化、知识背景、一些理念。

而且，京东自家直播间有一个120s战斗。

简单说就是直播时，如果用户在120s之内都不觉得眼前的数字人让自己别扭，就会跨过恐怖谷效应，接受这个数字人，看他的展示、听他的解说。

而且看到120s，因为对主播产生了信任，往往很大概率会下单。

“目前来看，数字人直播带货有很大机会会成为一个大的爆点。”京东云言犀负责人解释道，“主要是内容层次达到了新的水准，大家的接受度和信任度已经过了关键点了。”

说回“采销东哥”，他现在几乎能很完美地被生成120s以上的形象，并且足以以假乱真。

也就是说，“采销东哥”现在处于京东数字人分级里的第二阶段，这也是京东云言犀数字人的平均水平。

团队还提到，其实目前AI大模型数字人大规模商用，技术已经不是难点了。

难点是什么呢？是主播个人的形象要跟整体调性相匹配，在选品、互动方面还需要下很多功夫。

One More Thing

聊着聊着，一个有趣的问题被抛出来。

问，未来在京东直播间，有没有可能诞生一个类似于董宇辉的AI数字人超级主播？

京东云言犀负责人和算法总监相视一笑，说：

（这件事）技术上是有可能的，但在伦理和感情上不一定能成立。
比如很多丈母娘喜欢董宇辉，是因为这个人有很实在的特质，很文雅，有知识。
我不知道在伦理上到底之后会怎么解决……

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

猿类崛起@

关注

8
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
AI大模型数字人大规模商用，技术已经不是难点

京东创始人刘强东啊，他昨天又加班了。准确来说，是他的AI数字人形象“采销东哥”，昨晚开启了自己生涯第四场直播。这次东哥干的是图书采销工作。与上两次直播不同，这一回直播间不仅有了数字人助理，还有多机位切换等展现方式。与此同时，和留言区及屏幕前观众的互动方式也有所增强。量子位就此事询问了，得到答案是：每一场想侧重表示的不一样。技术的手段比较丰富，很难一场里面都推出来。不得不说，京东这回拿自家的京东云言犀数字人挤牙膏，还挺有自己的节奏（doge）。一周时间里，四场刘强东数字人连播，可谓出师大捷——
复制链接

扫一扫