标签类目 知识图谱_短视频标签体系

个人工作的一些短视频标签体系建立。

1.标签体系建立

可以参考谷歌的标签体系,或者根据知识图谱建立。

参考之后需要结合自己实际的业务进行粗化和细化,因为谷歌这个是针对一般的建立的,需要根据平台内容的分布和调性进行适当调整。

至于标签定义可以参考wiki的相关词汇的定义。

https://cloud.google.com/natural-language/docs/categories​cloud.google.com

d8b87594e23c40fff286628ee4dd4907.png
谷歌的部分标签体系

2.样本标注

需要将语料从无监督转为有监督,小平台哪有那么多人力蛮力标注,所以只能先做无监督咯。目前主要做了无监督的工作,也就是用词袋做召回。主要将标签分为2级,直接对第2级分类,分不了的才分到1级。

首先对视频文本,用每个标签下的字典召回,这样就可以得到这个视频所有可能的标签,然后用就是merge策略了。

前面过程是召回所有可能标签,接下来是对标签进行排序,接下来就构造一个合理的评分体系,选出合理的标签。

1.计算每个label的得分

对不同位置提取的关键词赋予不同权重,例如标题是*1.2,description是1,author name 1.6,总体原则是文本越长,权重越低。最后得到每个label的分数。

还有对不同的label乘以不同分数,这个主要根据人工标注的结果反馈的,例如某个label总是标错,要么字典比较差,要么比较难分,所以就降权处理,优先标到其他类。

2.排序

有了每个label的分数,也即是第二层标签,这样就知道第一层的分数。

有2策略

a、选出第一层得分最高的,然后再选择相应第二层的得分最高的标签,这样做的意义在于如果整个视频出现大量了tv movie 等词汇,那么基本属于娱乐类,不会垮一级大类犯错,就可以避免第2层的movie得分不如mobile phone(在目前进行项目中属于另一个大类),但是整体语义上娱乐,因此最后只会在movie 和tv中做选择,不会出现mobile的结果

a的做法在于如果想做多分类就没法玩了,以及没法直接比较confidence,例如某个视频只有一个关键词召回,这个敢信么,或者根据关键词讲了好多主题,最后选了一个标签,这种敢信么。

关于confidence主要考虑

  1. 整个视频的语义上属于一级标签,类目越少越好,也即是越集中,分数越高越好,说明有好多关键词支撑结果,如果根据关键词召回之后,整个视频出现好多个大类,说明这个可能是SEO优化之后的,命中多个热门词最后的结果也是非常不靠谱,如果只是体现了1-2个大类,最后结果是比较明确的。
  2. 二级标签的得分越高越好,说明有多个关键词支撑,
  3. 关键词的绝对数目,如果某个视频只有一个关键词,那么就意味着只有一个一级,一个二级,可信度就是100%了么,这种也许只能说明目前字典覆盖面不够,导致无法召回正确类,因此根据观察一般二级标签在视频可召回的关键词最多不会超过5个,因此用5作为上界,取score=log(n+1)/log(5+1)if n<5 else score=1 作为关键词个数。

b.带权重的softmax的具体做法:

  • 接着a的逻辑,首先对第一层大分类的分数,做softmax分类,也就得到属于第一层的不同标签的概率P(FIRST_LEVEL);
  • 然后在用乘以第二层的分数,再经过一层softmax,也即是P(SECOND|FIRST)的条件概率,这样就得到在某一个视频内容各个第二层标签的概率;
  • 接着在乘以关键词的权重,就得到最后某个标签的概率。

总之希望最后二级标签是大类分数越高越好,二级标签分数越高越好,关键词绝对数越多越好,这样视频意味整体语义就是比较清晰,单一,而且涉及到文字都被事先涉及的字典囊括,且数量非常多,这种是最靠谱的。比较头疼遇到讲的主题特别多,这种错误率也比较大。或者是仅凭1-2个关键词就断定是某个分类的(也就是字典不完善)。

目前根据这种做法准确率可以达到70%左右,召回率80%左右。

3.最近又在做第二版的标签:

第一版的标签定义太着急,导致很多东西没法考虑,有些资料是在项目快完结时候才到的, 所以重新做了一版标签体系。

现在有了一些新的总结:1.标签定义可以参考YouTube的 topic, 2.做标签前面已经总结了用字典的方式可以去搞定一些,但是标签体系一旦到了一定规模 上百 估计就很难 用字典能分个七七八八了,这时候一定要想到怎么去找出自动化找出一批样本,不管是竞争厂商还是哪里,一定是自动化找出。如果用人力标,成本非常贵,导致后期机器学习的样本成本非常高。所以如果设计一个自动收集的机制就显得挺考验产品的能力。

现在有些初步的思路,1.通过用label的关键词去大厂如果YouTube 去爬去相关的视频,作为训练的语料,2.通过用户的行为数据,如标记专家用户、或者图之类的算法去挖掘。3.从产品层有没有办法做一个隐式的机制去搞定呢?

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值