一种垂类作者特征的表示方法

在互联网各大主类的内容平台中,有很多用户专职搬运、或者原创一类视频:有些专供游戏,为游戏用户服务,有些专注食物,教大家做美食、品美食。这些定向产出内容的作者,我们称为垂类作者。一般来讲,一个优质的内容生产者,往往是一个垂类的作者。作为平台的维护和管理者,我们往往需要一种方法来识别一个作者是否是一个垂类作者,对于站外,我们可以邀请这批作者入驻;对于站内,可以为我们挖掘优质作者提供一个有效的特征。这篇文章结合我最近一段时间的工作,阐述我是如何获取YouTube上的垂类作者的。

核心目标

什么样的作者是垂类作者?一个作者发的视频绝大多数都是同一类别的,那么他就是一个垂类作者。所以,我们只要拿到这个作者最近发的视频,统计每个类别的视频数量,把所有的视频类别很集中的作者找出来就可以解决这个问题,思想是不是很简单?

困难

主要的原因是YouTube中的视频类别并不是特别的准:
YouTube视频类别
比如说,一个视频本来是讲食物的,一会儿在人物和博客这个类别,一会儿在旅游和活动这个类别。因为YouTube给定的视频分类并不是特别的好,所以我只能选择其他的信息来解决这个问题,所幸除了上面的类别,YouTube还给了我们另外一个选择:topicCategories
topicCategories,这类别可以对应到维基百科的词条上

任务解析

这个问题是一个二分类任务,主要用来判断作者是否垂直。结合各类语种OP评测的样本数据(共8000个左右,正负各占一半),只要找到合适的特征,就可以利用分类器来解决这个问题。

有了每个视频的类别,我们可以收集作者的视频信息,利用作者视频

垂类作者挖掘整理

2018年07月17日15:04:38

利用nlp的语言模型对channel频道的标题整合进行分类,得到的结果不是特别理想,其中准确率0.74,召回率0.48
image.png

2018年07月18日16:41:40

将video的topicCategories抓取下来发现只有60个类别

2018年07月20日12:08:53 l

不能放的视频类别

  • 最近不发视频
  • 版权风险

对于topic特征的处理,首先映射到一个小集合26种,将video超过3种类别的只保留三种,训练,p、f、f1均在0.75左右

2018年07月22日14:24:01

如何处理tags:
因为tags太多,无法利用和topic一样的映射方法,所以,对tags,有如下想法:
将tags统计,并按多到少排序,忽略tags的具体含义

2018年07月24日11:18:49

日本垂类放出中,我们抓取的作者1200个,视频大约为17w:
jp_gaming 73529
jp_food 56722
jp_cars 42583
,其中每个类别不在站内的占比大约为food 0.219667 cars 0.258667 gaming 0.373667,
总共出的

2018年07月26日17:46:30

模型的效果如下:
('Precision for xgboost is ', 0.7557706626954579)
('Recall for xgboost is ', 0.803006329113924)
('F1marco for xgboost is ', 0.7786728039892596)
因为考虑到模型训练出来的结果中有一部分最大类别占比偏低,所以为了提升P值,考虑先过模型,再卡规则:
('Precision for xgboost is ', 0.7557706626954579)
('Recall for model is ', 0.803006329113924)
('Precision for model+pct is ', 0.7720033528918693)
('Recall for model+pct is ', 0.7286392405063291)
('Precision for pct is ', 0.7592165898617511)
('Recall for pct is ', 0.5213607594936709)
如果只卡规则的话,虽然准确率会很高,但是召回太低,所以不建议直接卡规则。

模型加规则对PR值的影响

针对不同的maxpct阈值,选取之后,模型的PR变化如下,在阈值卡到0.9左右时,P达到最高,约0.82,因为标签和任务不完全匹配,导致某些垂类作者被标为了负类。当maxpct阈值卡到0.4-0.5左右时,R下降的不严重,准确率有所上升,建议阈值设置为0.5
PR变化

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值