对话特看科技滚石：入局数字人的第一年，当深耕“AI+视觉”的技术团队离开大厂...-CSDN博客

本文链接：https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/135799700

本文讲述了特看科技这家初创公司在AI和电商领域的发展历程，从最初的鲁班系统到数字人和音视频工具，以及他们在出海和AIGC领域的布局。文章强调了AI技术在业务中的应用和对公司成长的影响，以及如何通过灵活决策和深度客户沟通来抓住商业机会。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

采访对象|滚石

策划、撰写|李美涵

作为一家成立于去年的初创公司，特看科技团队保持着对趋势的敏锐和果决。

时间回溯到2017年，当核心团队在阿里巴巴智能设计平台工作时，便开始了对机器学习与电商广告设计相结合的探索，开发了AI生成海报的“鲁班”系统。凭借着一秒几千张海报的超高产能，及智能推荐算法下广告海报千人千面的精准投放，阿里鲁班在设计圈名声大震。其后，团队精准预判了互联网图文的发展已逼近天花板，便转型去开发服务于淘天商家的音视频创作工具。

“AI、电商、图像视觉是刻在团队基因中的三大要素”，特看科技数字人业务负责人滚石在采访中这样总结。

2022年，团队瞄准了未来更值得关注的两大机会：出海与AIGC。基于此，特看科技目前主要深耕于以下三部分的业务：首先是面向国内的数字人业务，服务客户主要集中在带货直播领域；第二条业务线是面向海外市场的TikTok数据分析工具，开发了挖掘爆品、寻找达人、分析投放广告等功能；第三部分的业务为网页端的SaaS工具，通过AI赋能为海外电商商家生产带货短视频。

在滚石看来，这三条业务线不是孤立的，而是相辅相成的——因为AI不能是一个纯粹的功能，而必须要为业务服务。因此，数据分析可以看作所有业务的基础，有了大量的数据作为支撑，才能了解什么样的视频能产生最好的带货效果，以指导AI的内容生产。

过去一年，特看科技在国内的数字人直播业务迅速完成了自我闭环，滚石用了“顺利”来总结整体的营运情况。同时，团队对海外的两部分业务也抱持着强烈的信心，较之国内相对成熟的电商生态，美国乃至整个欧美市场还处于刚起步的阶段，盈利空间巨大。从数据来看，未来一年的业务扩展与增长是件水到渠成的事。

以小见大，我们可以在一家初创企业的成长中，窥探到AIGC商业化逐渐拨开迷雾、照进现实的轨迹。德鲁克在《创新与企业家精神》中写道，“在商业中，不仅要看到眼前的现象，还要洞察未来的趋势。只有对环境变化有深刻的理解，才能在竞争中立于不败之地。” 我想，这正是特看科技团队的可贵之处和力量所在。

以下是滚石在访谈中的讲述内容：

AI进化，

几年前的产品概念终成现实

”

研究生毕业之后，我就进入了阿里工作，当时团队的领导就是现在特看科技的CEO。我们团队开始是做鲁班系统，用AI制作商品海报，为不同的用户个性化的推送广告，以提升商品的点击率。

在视频逐渐取代图文成为主流时，商家也开始逐步地采用视频去展现商品。视频的呈现效果生动、全面，所包含的信息量简直是对静态图片的降维打击。此后两年，我们团队转型去开发服务于电商内容的音视频工具。

可以说，团队一直在与AI和视觉相结合的技术打交道。只不过当时的AI还没有发展到现在的大模型阶段，主要使用的是生成对抗网络这样的上一代生成技术，这与今天扩散模型的生成能力相比有着天壤之别。那时候有很多关于产品的想法，可惜计算跟不上，随着算力的提升我们终于把很多产品形式变成了现实。

以图像生成技术举例，当团队研发AI生成商品海报技术时，有两大技术路线之争。一个路线是让AI生成一副画面中的所有像素点；第二个路线则是拼接，即提前准备好画面中的所有元素，去完成像素级的拼接，让它摆到正确的位置上，并做一些简单的色彩融合，让其看上去完整和谐。

就3、4年前的AI技术而言，像素级图片生成的质量稳定性是不达标的。应用的场景比较受限，通常用于人脸相关的玩法，比较多的应用在抖音等应用的人像拍摄上，但是很难扩展到通用的场景。我们知道，AI的生成机制是黑盒的——生成结果的好与坏，很难做有针对性的优化。例如，我想生成一朵花在海报中作为配饰，而对抗网络技术生成的效果，让花的样子非常奇怪，好像是一坨花，而不是一朵花。这种情况下，只能选择元素拼接的技术路线，以确保最终的呈现效果是用户能接受的。不过，有了扩散模型之后，花草装饰物可以非常轻易地生成，效果达到了真假难辨的程度，目前生成的图像已经是照片级的了。

技术发展到一定阶段后，产品形态上的创新也非常多。以往，电商工具生成的模特试衣效果图，无论是使用像素生成方式或是将衣服素材进行拉伸以适配模特，得到的图像结果都不如人意。最近，我看到阿里新出的试衣模型，效果非常真实，图像清晰度高，所有细节也还原到位。

从模型的原理上去理解这件事，是对抗模型和扩散模型在核心原理上有很大差异。对抗模型的生成是两个网络的竞争对抗，天然就有不稳定性。而扩散模型不需要对抗，更像是渐进式地学习。通俗的话我会这样进行描述：假如现在需要建造一栋18层的楼，生成对抗网络会一次性建造完18层，各种地基不稳的问题难以解决，整个楼可能歪歪扭扭的，随时会倒塌；而扩散模型则会开始学习如何从17楼建造到18楼，再学习如何从16楼建造到18楼……逐步地完成整个过程，建造的楼宇也就更稳定。

姿态轻盈的初创公司

能挖到更多新机会

”

我在特看科技工作的感受：公司是新的，但人是老的——还都是原来在一起共事的同事们。然而独立的初创公司与阿里“大厂”之间的差别，还是让我有几点新的体会。

首先，小公司的反应和决策更敏捷。比方说同样是上线一个新功能，或者要试水新的产品。大公司就会很麻烦，必须从立项开始，尤其涉及到跨部门合作的时候，需要多轮的会议去讨论，之后还会有法务部门再整体评定法务风险等等。

尤其是我们做AI模型相关的工作，每当涉及到数据训练或者对外提供不可控的生成功能时，法务部门就会非常介意风险问题。对于大公司来说，万一出现纰漏，造成社会上的舆论压力非常大，每一次决策都必须谨慎。而小公司则比较灵活，即使在早期试水阶段出现了问题，直接结束掉项目也不会产生什么影响。初创公司一周可以上线的功能，在大公司至少要经过3-4周的时间，效率上的差异是很明显的。

第二块是业务范围上的新变化。之前在阿里的时候，因为身份的问题，我们只能做服务于淘天商家的工具。如果我们想做一些好玩的娱乐类算法，适宜商家接入抖音等短视频平台去应用，那此时只能放弃（我们的想法）。现在在特看科技，无论是想服务于抖音平台的商家或是天猫、淘宝直播甚至是海外直播，对我们来说都是没有限制的。

最后，就是与客户接触的深入程度。大公司的团队架构比较庞杂，技术人员接触到一线商家的频次和深度都比较有限。背后的主要原因是大公司的人效昂贵，派专人去和商家深入沟通、磨合和陪跑业务并不现实。小公司的人效成本则会低很多，如果商家有需求，我们可以一对一地帮助他去做业务探索。

新业务的前期阶段，许多技术的改进不是能坐在办公室里想出来的，必须要扎实地跟客户进行足够深入的交流，甚至要亲身实践，才能感受到商家立场上需要什么。在做数字人直播的初期，大家对新技术都比较陌生，我们和商家都不了解如何更好地用数字人进行直播。团队就只好自己在各大电商平台上起号，进货到抖音上去卖，一边实践一边调试技术。我们尝试卖过零食、日用百货、旅游券、农用飞行器……杂七杂八的东西都有，前期工作的投入产出比是很低的，一个月卖不出去多少东西，起十个号要很久才能回本。

但是，能够深入一线去做一些接地气的工作，就能更好地发现和试验新的商业机会。

入局数字人直播，

降本增效VS技术尝鲜

”

数字人技术几乎每周都会进行调整和改进，不断获取新的商家反馈，根据产品的需求进行持续地迭代。

最早期的时候，可以看到市面上的数字人都是一个空手的状态，没办法自然地展示商品，商品信息主要是在主播身后或是桌上做一些贴片展示。如果售出的商品是虚拟的，例如本地生活优惠券、旅游券之类的还能勉强接受，但对于实物商品来说就非常的不自然。

比方说，一个卖吹风机的直播间，主播手上和桌子上都没有实物展示，只有贴片的视频，这就很难获得消费者的信任，真人主播绝对不会这样卖货。所以技术上必须要支持数字人在手上拿着商品去展示才行。

这里所说的技术支持，可以分为两个方面。首先是数字人和商品可以进行展示和互动，而不是把两个图层简单地拼贴在一起。其次，要实现商品的灵活切换。一场电商直播中往往会有多款主推产品，主播往往需要来回地进行介绍，回应（消费者关于）不同商品的问题，手上应该有对应的产品。只有实时的互动和快速响应才是自然的，而且必须要符合真人展示的逻辑，不能直接跳帧成其他商品。

从我们目前接到的需求来看，主要可以分为两种类型的客户。第一类是很直接的，就是想追求降本增效的客户，第二类客户的出发点则是想拥抱AI技术，抱着技术尝鲜的心态入局，尝试新的玩法不落后于技术潮流。

两类客户之间最大的区别就是他们对投入产出的衡量标准很不一样。追求降本增效的客户需要实打实的数据支撑，降本多少增效多少，必须都有非常客观的数据，从直播的点击观看率、互动转化率到千次成交额，都需要不断的复盘和优化。而技术尝鲜心态的客户则对数字人的成本没有那么敏感，只要不亏本，他们就可以接受。

技术的进步带来了许多的便利，现在客户生成自己的数字人形象流程是迅速和简捷的。早前做数字人方案时，必须有专门的场地和设备进行三维捕捉和重建，随着AI技术的发展，这些都不再是必需的了。（我们的）数字人在本质技术上是深度学习视频中的效果信息，跟三维方案相比，在清晰度和还原度上都有很强的优越性。而三维视频经过渲染后，还是和真人具有明显的区别，为了规避恐怖谷效应，三维数字人也刻意在眉眼比例等细节进行了调整，例如AYAYI（编者注：国内首个3D写实虚拟人物）、柳夜熙（编者注：抖音虚拟美妆达人，被称为2021年的“现象级”虚拟人）等形象。三维的方案的确具有更多的可操作性，更适合应用于一些娱乐场景，其高昂的造价也决定了他们一般作为乙方进行营销和广告活动。

现在，我们从拍摄到交付的周期是7天。在这其中，训练不是占据时间最长的，往往1-2天就能完成。真正花费时间的是拍摄后的素材优化，尤其对于电商平台的商家来说，使用虚拟主播的形象，就需要将视觉效果做到最佳状态，这需要进行调色和色彩校正，以及主播的美颜、瘦脸等等。此外，模特在拍摄中的动作和表情要经过人为挑选，会选择最合适的进行组合使用，并根据商家的反馈意见，进行多轮调整。调整完成后会进入验收测试的阶段，顺利的话就可以达成交付，复杂需求的数字人也可以在7天的周期内完成这些工作。

特看科技数字人可公开案例

展望：当数字人能力

延至整个运营流程

”

关于值得投入的技术演进方向，我认为依然是大模型。有了大模型的加持，数字人就能在与用户互动时做到随机应变。

当前，用户在直播间中提问，数字人仍然使用的是预先设置的自动回答。虽然NLP（编者注：自然语言处理）技术有了很大的发展，但在今年的实践中，我们发现目前的技术还不足以支撑电商场景。大模型生成的回复时常有一些错误，如果应用在互动娱乐中，可以打个哈哈遮掩过去。但在电商场景下，数字人一旦讲错了商品价格、活动权益、商品功效等内容，就会造成很多的售后纠纷，甚至还会涉及到虚假宣传的问题。

此外，由于AI生成内容的不可控，接入大模型后数字人口播常有违反广告法或平台规范的风险，例如在创作中使用了第一、最低价、医生推荐等违禁词。真人主播则具有更大的灵活性，面对电商平台复杂的审核要求，他们会使用“地板价（最低价）”“小生物（细菌）”等自创概念，巧妙地穿过红线，而这些对于大模型来说还比较艰难。

现在数字人也有用到大模型的能力，但不是直接接入，实时地与观众进行互动。而是使用ChatGPT等工具在开播前撰写直播中所用的话术，这些内容必须要经过人工审核才能使用。

因此，未来一两年中，数字人作为高效的生产力工具，适合的是那些本身有直播运营能力的商家。数字人作为直播团队的扩充，以更低的成本延长开播的时段、扩展直播平台取得更好的收益效果。

至于中长期的展望，团队有两个规划的方向，即智能化和出海。第一，我们希望数字人在大模型的加持下，能够真正地做到整个直播运营过程的智能化，让数字人拥有更多的灵活控场能力，例如依据直播间人数高低选择实时的直播话术是侧重于留存还是转化，并可以根据整场直播的数据自我复盘和迭代。第二，我们希望继续进入海外扩展业务，东南亚已经验证了直播带货业务的可行性，我们期待开拓欧美这样消费能力强、天花板更高的市场。

数字人的真实性

是为了用户体验而非迷惑观众

”

回答关于隐私和风险的问题，还是需要区分用户的类型。

对于To B的品牌商家来说，我认为盗用虚拟形象的风险很低。使用数字人进行直播和视频生成的主体是品牌与商家，他们与模特签约虚拟形象是提前办理过授权的，商家不可能盗用数字人形象去生成违法、违规的内容。

我们所担心的隐私问题，未来更多可能出现在面向C端的场景中，我们目前并没有提供这种服务。然而，技术是把双刃剑，如果不对技术应用加以限制的话，心术不正的人未经允许而盗用他人虚拟形象的情况就会存在。AI生成虚拟形象的门槛越来越低，而大家又早已习惯了在网络上分享自己的生活记录——这就使得面容及声音的被盗用是很难完全规避的。因此在技术方面，我持一个相对悲观的态度，只能寄希望于公众提升自己的防骗意识。

至于监管问题，比如要求数字人的电商直播必须标明身份，我觉得（这种情况）对于直播带货效果的影响微乎其微。实际上，已经有部分平台的规则进入，要求对数字主播进行标注了。从我们在京东平台的实践上看，标注前后的直播数据并没有明显的差别。

毕竟，从底层逻辑上去思考这件事，数字人之所以要无限贴近真人，是为了消费者能获得更好地观看体验，而非迷惑用户。无论是真人主播还是数字人主播，消费者真正在意的，只关乎商品本身。