为什么现在的视频都会加入自动字幕功能？

最新推荐文章于 2024-01-12 08:51:05 发布

杨渝

最新推荐文章于 2024-01-12 08:51:05 发布

阅读量1.7k

点赞数

文章标签：音视频知识图谱人工智能

本文链接：https://blog.csdn.net/weixin_43198074/article/details/128178950

版权

最近上油管和billbilli等视频网站，会发现部分视频添加了自动字幕生成甚至翻译功能(可能早就有，但是最近我才注意到)。前几天在登录T开头的微博网站，也发现有自建聊天室功能，加入一个聊天室以后又发现聊天室的发言会自动生成实时字幕。因为笔者也参与过一些NLP、语音识别、图谱、自动翻译的研究工作，发现这些功能后觉得很有意思，做过AI的同学都知道这一类语音识别和自动翻译会消耗算力，因此笔者就在思考这些互联网公司为什么会去消耗大量成本做这些功能，本文就是笔者自己对这问题的一些分析思考，未做原厂调研，不能做为严谨的科研文献参考。

1.自动字幕生成和自动翻译功能分析

我们先看看，自动字幕生成大致会用到几个工具：语音识别(负责语音转文字的识别)、自然语义处理(用于对生成的文字和词进行语义级的纠错，关键词提取)、知识图谱(其实是和自然语义处理相关联的，会根据不同schema的图谱进行更准确的纠错，并支撑自动翻译)、自然语言生成(可以算作纠错后的句子、段落生成对应的文本，当然根据地域会生成简体或者繁体中文)、自动翻译(这个没啥好说的)。

2.工程落地其他难点

2.1视频因为有分镜头和转场，所以一个完整的镜头可能是一个完整的句子或者段落，一一个完整的句子和段落可能也会对应若干个镜头。所以生成的字幕如果要和镜头相匹配，还需要对视频进行一定的图片切帧，进行图像识别或者分析，笔者猜测如果是口述可以进行一定程度的唇语分析(但是不清楚现在有没有人或者团队做过类似的训练)。但是如果是有动画、物体拍摄、逻辑递进等场景，就需要对视频主要目标，比如抖音跳舞的美女、科普演讲、手机评测等一类进行简单schema的构建，才能更好的讲生成文本和视频分镜头做更好的结合。

2.2如果是一些逻辑性不强或者没有提前构建schema的视频，比如电影介绍一类就很难去提前构建视频的图谱本体，笔者猜测这种生成的字幕可能就需要人工干预了，但是厂商如果为了控制成本，不见得会给所有的视频提供自动字幕生成或者自动翻译功能。这就是我们会看到不是所有的视频都有字幕选项。

2.3还有部分是视频制作者本身就添加了字幕，但是厂商也提供了自动字幕生成功能，这个时候从技术角度看，通过对视频自带的字幕进行OCR提取，和自动生成的字幕进行比对纠错，这算是一个很好的免费训练方式。

3.为什么要去做字幕自动生成和翻译

通过1、2的分析，其实可以知道做字幕自动生成和翻译会有两方面的成本，一方面是算力的成本，一方面是开发成本，而且预计整个开发和迭代成本并不低。如果按照预训练或者构建schema的技术逻辑，笔者认为做这个工作的投入和产出是不成正比的，本身也很难做为成熟的ToB技术创新或者技术输出变现。因为本身在算法原始创新层面没有太多创新，只是在落地工程代码层面做了些工作。

所以笔者认为互联网厂商做这些功能不能从技术创新角度去看，而应该从商业逻辑来看。做过产品经理的同学都知道，在做产品设计的时候，会将新功能分为必备、反向、无差异等属性。如果按照产品组件的角度去看，毫无疑问这两个功能大概率属于无差异功能。也许有同学会反驳翻译功能对自己还是很有用的，这个问题稍后会补充笔者的看法。但是如果把网站平台看做一个系统，这个系统对应了若干场景，每个场景是由不同组件完成(其实这里的实现已经接近于体系工程的自涌现了)。我们对场景进行研究就会发现一些有趣的事了，但是在这之前我还是想做些概念的分析和阐述。

3.1视频和微博厂商的盈利逻辑是什么？

很多同学会说互联网厂商盈利不就那几招，广告、抽成、订阅、股票等等。有经验的同学会说互联网厂商的盈利根本是用户流量。但是我们再分析下去，用户流量是什么？用户数吗，有些新型厂商为了快速融资会通过地推、促销、广告、裂变(最有名的就是PDD了)等手段快速扩大注册用户数，但是注册用户数不等于流量，因为有些用户注册了发现不感兴趣，今生今世可能都不会登录了。那是有效用户数吗？那什么是有效用户数？付了费的算有效用户吗？每天都上来看看的算有效用户吗？每天花费大量时间使用一个app的算有效用户吗？

如果是在互联网厂商待过的同学都明白，我们很难用以上的一些逻辑来真正准确定义“有效用户流量”。是在于我们的RFLP物理到抽象逻辑的建模方法，无法准确描述C端用户这种几乎是混沌的一种群体。问题出在哪儿？看过《乌合之众》的同学就知道，人这种个体的分析本来就属于人文和社会科学领域，如果强行用自然科学的思维去分析建模一开始方法就没有用对(当然当今大量技术和方法论本身就是跨学科，笔者反对的只是用单一的纯理工科的方法去分析问题，并不是反对这个过程不使用自然科学的方法论和技术)。

3.2如何按照跨学科思维去分析“有效用户流量”？

笔者这里尝试用行为心理学的“上瘾机制”来描述和定义“有效用户流量”，个人认为有效用户流量是指用户群体将注意力集中于一个事物，并且感知和认知层都专注于该事物，并投入大量成本最终形成上瘾的现象。因为行为心理学本身就是跨学科专业，除了采用了经典心理学的理论外，还参考了社会学的部分群体理论，经济学的部分原理，并衍生出了行为经济学等专业。但是笔者认为最重要的一点是，用户群体他的感知不但要集中于一个事物，认知也要集中于同一个事物，才能形成上瘾并转化为“有效流量”，系统工程和心理学里面都提到过人的短期记忆和长期记忆模型，AI的感知和认知分层也是基于该理论进行构建。其中上瘾机制就是为了获得短期快感，不断加大刺激和专注，但是对app的上瘾机制形成，绝不是和麻醉药品、光顾失足妇女一样是单纯通过感知层刺激能形成的。《认知科学导论》里面也提到对于某件事情的成瘾，比如玩手机和吸毒的原理类似，但是玩手机等事件的成瘾是需要大脑认知的参与的。(这部分阐述比较抽象，有些描述逻辑性还不够，以后有时间再去完善了)

3.3如何培养有效用户的成瘾场景？

通过前面的分析，我们梳理几个结论：对于互联网厂商的平台必须形成上瘾才能算是有效；这一类上瘾不是吸毒，不仅是感知的集中，也必须在认知上集中注意力；抛开场景谈技术无意义，群体的形成必须是有对应的场景设计和分析(比如周围的大学生都在刷抖音，你不刷就很难融入群体，本身就无法获得社会认同感。周围的单身汉都在刷soul撩妹子，你不刷就会造成对于单身的恐慌或者对约炮的向往)。

所以牛X的厂商产品经理或者总监，一定是场景设计或者预期描述的高手(但是笔者对这一点深为厌恶，从科学上看预期描述的因果关系和归因关系是两回事，从道德上看商业主义绑架了人的天性，缺乏道德的设计无论如何都应该被唾弃)。

我们回过头来看视频厂商，视频分为长视频和短视频，长视频有爱奇艺、油管、billibilli等以科普、评测、综述、影视剧为主的平台，短视频有抖音等平台(还有其他平台，但是笔者不刷短视频，也懒得去调研)。表面上看短视频刻意将时间控制在秒级为单位，但实质原因是短期感知刺激分泌的多巴胺数量和快感不是线性正比的，随着多巴胺持续分泌快感也是呈波浪形形态，所以将短期的刺激再拆分成更短的时间维度，就可以保证每个短视频的切换，都会引起快感呈一波一波的上升趋势，避免用户的快感疲劳。那为什么王者荣耀就不能以秒为单位来做一局呢，是因为对抗类游戏需要注意力不断集中，不断做出新的决策模型，多巴胺的持续分泌会消减快感疲劳，这就是为什么认知层的参与在成瘾过程中这么重要。但是如果是王者荣耀连招很熟练的高手打得太多可能就无法获得这么多快感，是因为连招的模型库已经进入短期模型库，不需要学习或者新的研判了(系统工程的一些课程里面会详细阐述人的短期记忆模型库和长期记忆模型库，这里不做过多阐述)。还有一类比如羊了个羊、植物大战僵尸玩法简单的游戏，就需要通过时间倒计时方式施加紧迫感，来加强注意力机制，避免快感疲劳。

这个时候我们再来看长视频平台，致命的场景问题出现了。我们在看长视频的时候，获得感知的方式很多，但是主要是视觉和听觉，但是因为缺乏交互，所以认知层参与的很少。这就造成用户在看一个视频的时候，很难长时间将感知和认知都集中于这个视频上，有时候可能是需要做其他事，所以打开视频也只是听声音为主(笔者不建议看学习视频的时候这样干)，有时候可能是觉得视频的前叙还没有讲到让自己感兴趣的内容，也许是纯属开着听个响(奈飞、葫芦的影视剧不同，有时间我们可以单独再分析一下)。那这些场景下，客户如何成瘾并转化为有效用户呢？实际上很多长视频平台意识到了这个问题，也有意无意做了很多尝试，比如在视频中间插播广告，你真以为厂商是想赚那点广告费？在视频中加入抽奖或者其他互动环节。但是这毕竟是阶段性的，平台不能每隔30秒就来一次吧！

所以这个时候我们再来看自动字幕生成，有趣的事情发生了，图片、文字、声音、触觉采集的方式不同，在人体传输的神经链路不同，甚至在大脑的映射区都是不同的。这个不是我说的，有兴趣的可以翻看《认知科学导论》，里面有大量的医学数据和测试报告，实质上手、脚、舌头和脸触碰同一个物体表面所传递和映射的方式都是不同的(有兴趣的同学可以结合性心理学做些研究^_^，别说我猥琐哈)。因此当我们去同时看视频、文字，听声音的时候，传输到大脑的映射区和链路就有了三条不同的方式。特别是和视频、声音的短期刺激不同，文字在人的进化史中，和长期记忆模型库、认知层是高度紧密相关的。无形中就构建了感知层和认知层的同时参与，同时因为认知层的部分参与，感知层视觉和听觉的也不再分散，短期刺激的快感疲劳会通过视觉、听觉两条链路做部分抵消。

4.综上所述，因为自动字幕的生成，牵引了认知层的参与，并带动了多个感知器官的参与。用户的注意力更加集中，更容易上瘾并形成有效访问。这就是为什么聊天室如果有自动字幕生成，很多人大概率会花更多时间去看聊天室聊了什么(当然这只是相对以前而言，不代表绝对时间)，至于为什么说自动翻译也是属于无感知功能呢，因为去看大段外语长视频的，大概率是为了学习了解新知识，这部分人群如果你不会外语还是去看盗版电影或者找相关翻译好的论文算了。

最后，这不是严谨的科研论文，只是笔者的个人随笔分析，仅供参考。