博通团队文本标签提取技术演进

文本标签提取技术实践与探索方案 | 相关论文入选顶会

| 导语 搜索、广告、推荐等场景都需要对内容的深入理解,而标签提取是内容理解中最常见的任务,本文介绍了博通内容理解中文本标签提取的技术实践和探索。目前博通内容理解的标签提取已广泛应用于公司的信息流、广告、搜索等业务中,相关的创新方案被ACL、AAAI等顶级会议录取。

搜索、广告、推荐等场景作为互联网时代最主要的三种信息获取方式,均需要对用户的兴趣和内容进行精准的匹配。在此过程中,对内容的理解至关重要。标签作为一种比较常见的内容特征,在内容理解中起着非常重要的作用。本文主要介绍我们在文本标签提取上的实践方案以及技术探索,所提出的两个创新技术方案:联合抽取与生成的统一模型和基于提示的受控生成模型,分别被ACL2021与AAAI2022录用。

博通内容理解平台由TEG 机器学习平台部NLP技术中心打造。平台目前提供65+种能力,涵盖了分类标签,内容质量、特定属性和基础能力等四个大类,支持图文、视频和直播等主要内容形态,广泛应用于腾讯看点、微视、微信搜一搜、AMS广告等业务,平台日均调用量6亿+次。目前,博通内容理解平台已集成本文介绍的标签提取系统,欢迎大家体验和接入。

1、任务背景

图1 标签在推荐系统中的应用

       在内容理解中,通常将能体现文章主旨/主题的词或短语称为标签。标签提取任务的目标是为文章这样的无结构文本提取出结构化的标签,这样的结构化标签可以用于推荐系统的各个模块,如图1所示,标签提取的结果可以单独作为一路召回,或者作为离散特征用于粗排、精排、构建用户画像等。对推荐系统起着重要的作用。此外,标签提取任务在学术界以Keyphrase Prediction的任务形式同样受到NLP研究人员的关注,每年的各大NLP相关的顶会上均有该任务相关论文的发表。

2、技术方案

2.1 实体标签提取

图2 实体标签提取系统

       实体标签是指的文中重要的实体词,这样的词通常会显式的出现在文中。针对实体标签提取任务,如图2所示,我们将其分成了离线词典挖掘与在线实体标签抽取两个模块。对于离线词典挖掘,我们设计了包括实体词挖掘、歧义词挖掘、同义词挖掘等多个离线词典,这些词典对于在线实体标签抽取的各个阶段起着重要作用。对于在线实体标签抽取模块,由于实体标签通常会在文中直接出现,因此我们采用了候选提取+重要度排序的思路从文中提取出相应的标签。在候选提取阶段,我们首先对原始文章进行了分词、去噪、归一等处理,在此基础上我们设计了多种能衡量候选标签在文中重要性的特征,并在这些特征下通过一个重要度排

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值