多图文帖智能封面提取方案

最新推荐文章于 2024-03-06 15:59:50 发布

腾讯技术工程

最新推荐文章于 2024-03-06 15:59:50 发布

阅读量1.7k

点赞数

本文链接：https://blog.csdn.net/Tencent_TEG/article/details/97714919

版权

640?wx_fmt=gif

导语一个帖子在用户点进去观看之前，能被用户捕捉到的信息只有封面缩略图、标题、作者等少量信息，这些因素直接决定了用户是否愿意点击该帖。一个好的封面能明显提高用户的点击欲，而对于不少UGC内容的帖子，用户也不会去指定封面，这时智能提取封面就显得尤为重要。

对于资讯类App，从文章的配图中选择1-3张图片并裁剪出适合区域作为封面，是一种很常见的场景。这里会涉及到两个问题：如何从多张图片中选择质量较高的前几张图作为封面？挑选出来的图片宽高比可能与封面要求的比例不符，如何从图中裁剪出适合的区域呈现给用户？

本文主要跟大家分享一下我们团队最新开发的智能封面提取方案。

封面提取流程

针对以上需求，我们提出了一种多图文帖的封面提取方案，其主要流程如下：

640

可以看到单张图片处理的流程主要包括人脸检测、显著性检测、区域提名和区域打分（其中长图分割属于异常流程，非必经主流程）。通过人脸检测和显著性检测技术来提名候选区域是比较有效的聚集方法，可以让我们快速地找到图片中的“重点”，过滤掉一些无用信息。

在前两步检测的基础上，通过提名算法，我们会选取出多个候选区域作为备选封面，最后再用打分模型对候选区域进行美学打分，输出高分区域作为这张图的最适区域。

在我们的应用场景波洞星球App中有许多长图，每张长图是由多张小图片组合而成，例如一张长漫画可能包含多画图片。因此在单张图片提取之前，我们会先检测图片是否为长图，如果是长图，则先对其进行分割操作，分割后的结果再走后续流程。

对于多张图片的最终封面选取，我们首先会依次对每张图片进行封面提取，同时得到该封面对应的得分。然后对得到的所有封面按分值进行排序，再通过相似度检测算法对相似封面进行抑制。最后，选取Top-N作为最终的帖子封面。

下面我们分模块说一下各自的实现原理。

人脸检测

在人脸检测中，我们用的是经典的yolov3模型。由于模型适用的场景不只需要检测真人人脸，还有很大一部分是动漫人物的人脸。动漫人物与真人存在许多差异，例如人物可能是简笔画风格、人物的身材比例失真、五官缺失等等（见下图）。因此我们对重新训练了模型对得到新的权重。我们收集了约3万张图片作为训练集，其中包含了来自WiderFace数据集的1万多张图片，Danbooru2018数据集的1万多张动漫人物图片以及从波洞星球上收集的6千多张动漫和Cosplay图片。验证集4500多张，测试集2800多张（动漫人物与真人各一半）。

最终模型在测试集上的召回率为97.88%，精准率为99.08%。