标签类目知识图谱_短视频标签体系

最新推荐文章于 2022-12-26 20:24:08 发布

weixin_39626613

最新推荐文章于 2022-12-26 20:24:08 发布

阅读量1.1k

点赞数

文章标签：标签类目知识图谱

个人工作的一些短视频标签体系建立。

1.标签体系建立

可以参考谷歌的标签体系，或者根据知识图谱建立。

参考之后需要结合自己实际的业务进行粗化和细化，因为谷歌这个是针对一般的建立的，需要根据平台内容的分布和调性进行适当调整。

至于标签定义可以参考wiki的相关词汇的定义。

https://cloud.google.com/natural-language/docs/categoriescloud.google.com

谷歌的部分标签体系

2.样本标注

需要将语料从无监督转为有监督，小平台哪有那么多人力蛮力标注，所以只能先做无监督咯。目前主要做了无监督的工作，也就是用词袋做召回。主要将标签分为2级，直接对第2级分类，分不了的才分到1级。

首先对视频文本，用每个标签下的字典召回，这样就可以得到这个视频所有可能的标签，然后用就是merge策略了。

前面过程是召回所有可能标签，接下来是对标签进行排序，接下来就构造一个合理的评分体系，选出合理的标签。

1.计算每个label的得分

对不同位置提取的关键词赋予不同权重，例如标题是*1.2，description是1，author name 1.6，总体原则是文本越长，权重越低。最后得到每个label的分数。

还有对不同的label乘以不同分数，这个主要根据人工标注的结果反馈的，例如某个label总是标错，要么字典比较差，要么比较难分，所以就降权处理，优先标到其他类。

2.排序

有了每个label的分数，也即是第二层标签，这样就知道第一层的分数。

有2策略

a、选出第一层得分最高的，然后再选择相应第二层的得分最高的标签，这样做的意义在于如果整个视频出现大量了tv movie 等词汇，那么基本属于娱乐类，不会垮一级大类犯错，就可以避免第2层的movie得分不如mobile phone（在目前进行项目中属于另一个大类），但是整体语义上娱乐，因此最后只会在movie 和tv中做选择，不会出现mobile的结果

a的做法在于如果想做多分类就没法玩了，以及没法直接比较confidence，例如某个视频只有一个关键词召回，这个敢信么，或者根据关键词讲了好多主题，最后选了一个标签，这种敢信么。

关于confidence主要考虑

整个视频的语义上属于一级标签，类目越少越好，也即是越集中，分数越高越好，说明有好多关键词支撑结果，如果根据关键词召回之后，整个视频出现好多个大类，说明这个可能是SEO优化之后的，命中多个热门词最后的结果也是非常不靠谱，如果只是体现了1-2个大类，最后结果是比较明确的。
二级标签的得分越高越好，说明有多个关键词支撑，
关键词的绝对数目，如果某个视频只有一个关键词，那么就意味着只有一个一级，一个二级，可信度就是100%了么，这种也许只能说明目前字典覆盖面不够，导致无法召回正确类，因此根据观察一般二级标签在视频可召回的关键词最多不会超过5个，因此用5作为上界，取score=log（n+1）/log（5+1）if n<5 else score=1 作为关键词个数。

b.带权重的softmax的具体做法：

接着a的逻辑，首先对第一层大分类的分数，做softmax分类，也就得到属于第一层的不同标签的概率P（FIRST_LEVEL）；
然后在用乘以第二层的分数，再经过一层softmax，也即是P(SECOND|FIRST)的条件概率，这样就得到在某一个视频内容各个第二层标签的概率；
接着在乘以关键词的权重，就得到最后某个标签的概率。

总之希望最后二级标签是大类分数越高越好，二级标签分数越高越好，关键词绝对数越多越好，这样视频意味整体语义就是比较清晰，单一，而且涉及到文字都被事先涉及的字典囊括，且数量非常多，这种是最靠谱的。比较头疼遇到讲的主题特别多，这种错误率也比较大。或者是仅凭1-2个关键词就断定是某个分类的（也就是字典不完善）。

目前根据这种做法准确率可以达到70%左右，召回率80%左右。

3.最近又在做第二版的标签：

第一版的标签定义太着急，导致很多东西没法考虑，有些资料是在项目快完结时候才到的，所以重新做了一版标签体系。

现在有了一些新的总结：1.标签定义可以参考YouTube的 topic， 2.做标签前面已经总结了用字典的方式可以去搞定一些，但是标签体系一旦到了一定规模上百估计就很难用字典能分个七七八八了，这时候一定要想到怎么去找出自动化找出一批样本，不管是竞争厂商还是哪里，一定是自动化找出。如果用人力标，成本非常贵，导致后期机器学习的样本成本非常高。所以如果设计一个自动收集的机制就显得挺考验产品的能力。

现在有些初步的思路，1.通过用label的关键词去大厂如果YouTube 去爬去相关的视频，作为训练的语料，2.通过用户的行为数据，如标记专家用户、或者图之类的算法去挖掘。3.从产品层有没有办法做一个隐式的机制去搞定呢？

weixin_39626613

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
标签类目知识图谱_短视频标签体系

个人工作的一些短视频标签体系建立。1.标签体系建立可以参考谷歌的标签体系，或者根据知识图谱建立。参考之后需要结合自己实际的业务进行粗化和细化，因为谷歌这个是针对一般的建立的，需要根据平台内容的分布和调性进行适当调整。至于标签定义可以参考wiki的相关词汇的定义。https://cloud.google.com/natural-language/docs/categoriescloud.googl...
复制链接

扫一扫