【腾讯TMQ】视频负反馈评测

背景

QQ浏览器的feeds视频每天有数亿的播放量,视频的质量会影响用户使用QB的体验。如何在海量的视频库中发现劣质视频,一直是视频运营的重要关注点。常用的方式是,给视频加一个举报按钮,让用户来举报,这是一个直接且有效的方式。

但是鉴于举报的按钮不明显,用户不知道举报功能等原因,依然有大量的劣质视频没有被发现。通过观察发现,劣质的视频通常会有大量的用户在评论里面吐槽。

因此想到通过评论内容判断视频的质量,实践中使用了 tensorflow 训练模型。当前会将评论分为标题不符,广告宣传,内容重复过时等类别。

评论模型训练

1、评论收集 ##

要训练模型,必须要有相应的训练集和验证集,视频评论有 8 个分类每个分类都需要大量的数据。首先在视频后台的播放记录中获取播放量比较大的视频 vid,然后通过视频的http接口,通过 vid 获取评论。通过这种方式每天能拿到上百万的评论,但是这些评论大部分都是用户正常的评论。

QQ 浏览器资讯之前已经做过类似的模型,资讯包含了一个情感分类(正面,负面)的模型,吐槽的内容一般都是在负面评论里面。所以前期会将所有的评论使用情感分析,得到大量的负反馈评论。通过这个步骤可以从百万级别的评论中筛选出十万级别的负面评论。

2、评论标注

已经有了十多万的负面评论,但是这些数据依然不能用于训练,需要标注分类后才能用于训练。评论的标注是在企鹅众测(https://wetask.qq.com/tasks?type=0)上完成的,企鹅众测上有多种类型的数据标注,不同的用户有不同的擅长领域。因此前期组内选出了 60 个标注的测试题,放在众测上做用户的测试和筛选,选出成绩比较高的众测用户作为之后的核心视频评论标注用户。

核心用户选择完成后就能发布标注任务了,任务包含说明,需要标注的评论内容等信息。众测用户收到任务后,就可以在手机 APP 上进行标注了。

众测的后台会将同一个题目随机分给 3 个不同的众测用户标注,然后将 3 个标注结果进行统计,如果某个分类结果有 2 个以上的用户标注,则为有效的评论标注,否则该评论不使用。

3、开始训练

有了标注的数据,就可以训练模型了。视频的评论使用工具是tensorflow,网络是CNN,速度比RNN快很多。具体是训练文章网络上已经有很多,可以网上搜索“文本分类 tensorflow”参考。

视频评测

1、获取视频vid

评测的模型训练完成后,就可以用来评测线上的数据了。线上数据的获取,视频这边是从播放记录拿的数据。使用 QQ 浏览器每播放完一个视频,就会将视频的播放记录上报到后台,其中就有 vid 字段。在数据工厂[一个数据平台] 建立每日任务,统计每天播放量比较大的 vid,然后将 vid 导入到 mdb[一个数据库平台] 数据库。

2、获取视频评论

将评测的脚本放到公司的 Docker上,评测脚本每天定时执行。执行时从 mdb 获取 vid,然后脚本根据 vid 获取视频的评论。

3、开始评测

将一个视频的所有评论使用模型评测,如果评论结果为问题视频(根据负面视频的占比),还会将该 vid 对应的信息补全(视频标题,封面图等信息)方面后期运营同学处理评测结果。

结果处理

1、人工下线视频

模型评测出的视频,不会是 100% 的问题视频,总会有失误的情况。因此将评测出的视频放到了一个 mdb 的表里面,由运营同学再次人工审核下线,而不是直接下线。运营的前端同学做了前端页面,从数据库读取视频,然后执行下线操作。

2、加入黑名单

运营同学点击删除按钮后,该视频的 vid 就会进入视频系统的黑名单。进入黑名单的视频不仅不会得到相关视频的推荐,并且无法直接播放,访问时会直接提示已经删除。

3、模型结果和优化

当前的的评测模型每天能识别出 100 多个问题视频,经过人工确认的视频有 40-80 个,占比 70% 左右。运营同学手工确认的问题视频,后台也会收集用来优化模型。

最后放一张负反馈流程的全图:

关注腾讯移动品质中心TMQ,获取更多测试干货!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值