【腾讯TMQ】视频负反馈评测

最新推荐文章于 2019-11-15 19:32:48 发布

腾讯移动品质中心TMQ

最新推荐文章于 2019-11-15 19:32:48 发布

阅读量930

点赞数

分类专栏：精准测试测试分析

本文链接：https://blog.csdn.net/TMQ1225/article/details/80538524

版权

精准测试同时被 2 个专栏收录

35 篇文章 7 订阅

订阅专栏

测试分析

30 篇文章 0 订阅

订阅专栏

背景

QQ浏览器的feeds视频每天有数亿的播放量，视频的质量会影响用户使用QB的体验。如何在海量的视频库中发现劣质视频，一直是视频运营的重要关注点。常用的方式是，给视频加一个举报按钮，让用户来举报，这是一个直接且有效的方式。

但是鉴于举报的按钮不明显，用户不知道举报功能等原因，依然有大量的劣质视频没有被发现。通过观察发现，劣质的视频通常会有大量的用户在评论里面吐槽。

因此想到通过评论内容判断视频的质量，实践中使用了 tensorflow 训练模型。当前会将评论分为标题不符，广告宣传，内容重复过时等类别。

评论模型训练

1、评论收集 ##

要训练模型，必须要有相应的训练集和验证集，视频评论有 8 个分类每个分类都需要大量的数据。首先在视频后台的播放记录中获取播放量比较大的视频 vid，然后通过视频的http接口，通过 vid 获取评论。通过这种方式每天能拿到上百万的评论，但是这些评论大部分都是用户正常的评论。

QQ 浏览器资讯之前已经做过类似的模型，资讯包含了一个情感分类（正面，负面）的模型，吐槽的内容一般都是在负面评论里面。所以前期会将所有的评论使用情感分析，得到大量的负反馈评论。通过这个步骤可以从百万级别的评论中筛选出十万级别的负面评论。

2、评论标注

已经有了十多万的负面评论，但是这些数据依然不能用于训练，需要标注分类后才能用于训练。评论的标注是在企鹅众测（https://wetask.qq.com/tasks?type=0）上完成的，企鹅众测上有多种类型的数据标注，不同的用户有不同的擅长领域。因此前期组内选出了 60 个标注的测试题，放在众测上做用户的测试和筛选，选出成绩比较高的众测用户作为之后的核心视频评论标注用户。

核心用户选择完成后就能发布标注任务了，任务包含说明，需要标注的评论内容等信息。众测用户收到任务后，就可以在手机 APP 上进行标注了。

众测的后台会将同一个题目随机分给 3 个不同的众测用户标注，然后将 3 个标注结果进行统计，如果某个分类结果有 2 个以上的用户标注，则为有效的评论标注，否则该评论不使用。

3、开始训练

有了标注的数据，就可以训练模型了。视频的评论使用工具是tensorflow，网络是CNN，速度比RNN快很多。具体是训练文章网络上已经有很多，可以网上搜索“文本分类 tensorflow”参考。

视频评测

1、获取视频vid

评测的模型训练完成后，就可以用来评测线上的数据了。线上数据的获取，视频这边是从播放记录拿的数据。使用 QQ 浏览器每播放完一个视频，就会将视频的播放记录上报到后台，其中就有 vid 字段。在数据工厂[一个数据平台] 建立每日任务，统计每天播放量比较大的 vid，然后将 vid 导入到 mdb[一个数据库平台] 数据库。