连续两年入选CVPR ！快手KVQ，大模型加持的视频质量评价“黄金眼”

快手技术

已于 2024-06-18 17:54:23 修改

阅读量1.7k

点赞数 19

文章标签：人工智能算法音视频

于 2024-06-18 17:54:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kuaishoutech/article/details/139780105

版权

每天，人类创造出约1.77亿TB的视频数据，累计时长足以从史前时代连续播放到现在。

如何准确评判视频质量，并兼顾成本和体验，让有限的带宽和算力真正用在“刀刃”上，是一大难题。

此外，视频从生产到消费的链路很长，编码、处理、传输等环节都会对画质造成影响，业界需要有的放矢，为改善用户体验找到有效依据。

人们一直在寻找一把尺子，让复杂的画质指标可以被准确量化，在全链路、全场景实现精准的视频质量评估，喊出那句：

“我的眼睛就是尺”

随着快手KVQ的问世，这把尺子，终于来了。

KVQ（Kuaishou Visual Quality），是一套快手自研的图像/视频质量评估方法。它基于海量的视频数据+AI大模型训练而成，是针对视频质量的科学量化的衡量手段。

快手丰富海量的视频内容和数据积累训练，让KVQ具备极强泛化性。

快手KVQ的感知能力优势

KVQ在视频质量评估的过程中，会综合感知两方面指标：

● 视频质量分析（能不能看）：模糊检测、块效应检测、镜头脏污、噪声检测和交错检测

● 视频内容理解（好不好看）：大光圈检测、横竖屏检测、三段式检测、无意义检测和场景识别

前者有助于识别视频的基础画质问题，后者则是对抽象性特征的分析，二者综合判断，从而帮助后续的视频处理决策和分发决策。

● KVQ感知能力和评分维度一览（点击查看大图）

相比传统的视频质量评价方法，KVQ更适合内容、编码和处理手段更多样的平台。

在 PGC 和 UGC 测试场景下，KVQ准确率均超过传统画质评价算法，已经可以媲美人眼主观评价。

快手KVQ解决的痛点

● 准确的视频质量评价标准，将复杂的评价体系进行科学量化

● 全链路任一节点的视频质量评估，并辅助归因与调整，指导画质处理与编码

● 帮助确定成本与画质的均衡点，实现质效统一

面向音视频场景

KVQ作为画质的准绳，如何在【生产-处理增强-编码-消费】每个环节进行全链路画质监督与衡量呢？

● 监测：在拍摄/编辑/推流等环节，提前诊断画质隐患，从生产源头发现画质风险。

● 提醒：基于画质问题的原因，提供“白盒化”提醒方案，更针对性地给出改善画质的举措建议：如擦镜头、开灯；或开启端侧画质增强来进一步修复。

● 处理前：KVQ是画质增强算法（去模糊、去噪声、去块效应等）开发过程的“判卷人”——每一次处理增强算法的迭代都可交给KVQ“判卷”，验证效果，提升研发效率。

● 处理中：基于KVQ基础特征给出的视频损伤检测结果，更具针对性地触发不同类型的增强算法，对算力进行靶向规划，减少算力浪费。

● 处理后：在增强处理后，KVQ的分数可用来判断是否出现badcase，进而决策是否重新优化算法。

● 基于KVQ对「编码码率-质量曲线」的实时预测（不同码率档位，对应的质量曲线斜率不同），去保障带宽的合理控制，和画质体验的最佳水平。

● 转码压缩后的画质监督——避免“省了带宽但丢了画质”，防止画质劣化。

● 多码率决策：将清晰度量化，在保障流畅播放的前提下，下发清晰度最高的档位。

● 触发端侧后处理：基于KVQ的判断，分析一个作品是否适合做后处理（如：端侧超分），进而提升低质作品清晰度。

● 清晰度长期监控：视频生产-处理-消费的全链路定期巡检，通过KVQ分数，判断大盘清晰度是否正常，进而辅助归因与干预。

● 快速排障：在点直播全链路中，基于KVQ的分数判断，辅助快速定位造成清晰度明显损失的环节，提升排障效率。

面向运营、分发、搜索场景

KVQ可以帮助筛选优质内容，减少低质内容隐患，提升运营效率。

● 机审环节：劣质（无意义、黑屏）过滤；低质（模糊、噪声过高）限权。

● 人审环节：作品在获取一定热度之后，KVQ可以辅助审核人员，判断视频画质是否适合继续享有更高流量。

● 让低质视频降权，保证用户消费生态体验。

● 让精品视频池“蓄水” ，保障精品池作品清晰。

● 促进新作品冷启动 —— 准确识别画质层面的潜力，帮助热度快速爬坡。

● 基于KVQ给出的画质评价，对搜索结果重排。

● 提升优质作品排序，提升点击。

目前，KVQ已经全面应用于快手的点直播的生产、转码、消费全链路，同时也已经面向头部客户开放技术支持。

传统的视频质量评价方法——大体分为主观方法和客观方法。

主观方法以人工方式，邀请画质专家评估视频质量。虽然准确度高，但人力成本巨大，缺乏时效性，不适合规模投入。

客观方法基于设计出的算法模型，在机器上自动执行视频质量评估（如SSIM、VMAF、PSNR等传统业界标杆方法）。这类方法依据人工对视频失真的理解来设计，容易因考虑不周或难以实现，使得模型对视频质量表示不充分，特别是在面对海量UGC视频时，可能出现误判。

比如一个源视频，在处理阶段经过了过度的锐化。在人眼主观看来会觉得观感不佳，但在传统评价方法看来，可能反而觉得效果不错。

● 实验室训练集 vs 真实的视频数据

在生产阶段，UGC种类繁杂，源视频质量也参差不齐；而在处理增强阶段，对视频画质的处理方式也不尽相同；到了编码阶段，平台为保障不同网络下顺利播放，对源视频的编码档位各异。此外，为了提升消费侧体验，平台也会触发端侧的画质增强。

各种环节的叠加，加剧了画质问题的复杂性。对传统的评价模式来说，严重超纲，容易失灵。

那么KVQ在训练过程中，如何摆脱传统方法的瓶颈？

数据融合训练，“大力出奇迹”

基于快手海量、丰富的视频标注数据，KVQ在训练过程中触达的场景多元，足够“见多识广”。

站在巨人的肩膀，让KVQ足以应对复杂的UGC短视频特征，实现准确评价。

● 训练过程中，基于快手海量素材，KVQ足够见多识广

大模型训练，创造“代差优势”

快手始终在音视频技术领域坚持前沿探索与技术验证，率先投入大模型预训练实践：

● 大模型预训练技术，基于海量的UGC视频数据和领先的Transformer架构实现AI推理，让KVQ在面对不同类型视频时可以“触类旁通”，理性评价。

● 多维的失真感知能力：即空间感知（图像内容本身的失真感知）、时间感知（视频播放过程中，连续时域上的失真变化感知）。

迭代飞轮，快速优化表现

● KVQ在应用场景中持续收集badcase反馈（快手内部+客户侧的反馈和需求），并不断迭代。

● 针对线上消费侧视频大盘进行巡检，定期捞取检测，发现问题。

● 针对内容多样性、处理多样性、编解码多样性等问题，KVQ持续调优，目前已迭代至第五代，多个场景均达到Golden Eye（人眼的最佳主观评价）水平。

当前，KVQ无论是和学术界众多领先方法的效果比对，还是和工业界的标杆方法比对，都展示了出众的技术优势。

KVQ与业界标杆对比

KVQ的保序性表现优秀

保序性作为视频质量评估重点依赖的指标，与终极目标挂钩——是否与人眼主观感受质量一致。

其逻辑在于：在同源视频对的清晰度区分中，评估【机器预测顺序】与【人眼主观顺序】的一致性，包含点播/直播多档位、分辨率、多码率等测试场景。

KVQ在以下多个场景维度的保序性指标，均达到Golden Eye水平。

在已经拉开帷幕的计算机视觉顶会CVPR 2024中，快手KVQ相关论文被正式收录，展示了KVQ在短视频平台上进行视频质量评估的重要作用。

基于快手的海量用户反馈迭代，KVQ的泛化性越来越高，目前已经服务多家头部互联网客户，有效帮助客户实现高效准确的视频质量评估。

视频平台的成本和体验，始终是天平上难以取舍的两端。KVQ这把尺子，经过千锤百炼，为打造极致的音视频体验而生，将持续帮助更多行业伙伴，在天平上找到最优解。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。