多模态短视频内容标签技术及应用(1)

本质上内容标签和另一个我们经常使用的关键词抽取技术非常类似。但不同的是我们做内容标签的一个重要出发点是为了推荐系统来对各种内容生成标签。它更突出了推荐的应用场景,虽然内容标签的应用也不仅限于在推荐场景下,可以针对任何基于内容理解的场景内容,因为内容是一个广泛的含义,包括文本、图文、短视频等等。而关键词抽取,主要针对的是文本,它是从文本里面把跟该文本意义最相关的一些词语抽取出来,在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用。

内容标签有什么作用?举三个典型的应用场景,让大家对内容标签有一个比较直观的印象:

第一,个性化推荐,通过对内容进行标签提取,结合用户的兴趣TAG,对用户进行精准的个性化推荐,是内容标签在个性化推荐上面的一个典型的应用。

第二,搜索,通过内容的关键词或者内容标签,跟用户输入的关键词做精准匹配,返回更精确的搜索结果。

第三,聚类&分类,使用内容标签作为文本特征,来提升聚类或分类的效果。

提取内容标签的方法:

提取内容标签的方法在这里我总结了两大类方法:\

第一类是抽取式,本质是从文本中抽取关键词或者短语;

第二类是生成式,通过生成的方式,来生成关键词和短语。

这是两条不同的技术路线。

先看抽取式,抽取式主流的方法第一步是做侯选词的提取,第二步对侯选词做排序,然后把得分高的选出来作为关键词。又可以分为有监督和无监督的方法,当然也可以把监督和无监督相结合起来:

其中有监督的方法:是先提取侯选词,提取的方法可以结合一些无监督的方法。比如说通过词频序列标注提取一些侯选的关键词。然后做一个分类或者排序,来选出得分高的候选词作为关键词。

第二个是无监督的方法,无监督方法使用比较广泛的是基于词频的方法和基于图的方法。基于词频最常用的方法是TF-DF,它是最简单也是使用比较广泛的一种关键词提取方法;基于图的方法最常用的是TextRank方法,它是从PageRank算法发展而来,它的思想是以文本中的词为节点,以词的相邻关系为边构建词图&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值