干货!如何通过极弱监督来完成海量文本的结构化

本文探讨如何在大数据时代利用极弱监督和无监督方法进行文本结构化,特别是在缺乏人工标注的情况下发现新兴词组和构建文本分类器。报告介绍了UCPhrase模型,该模型利用无监督和上下文感知的短语标记技术,以及X-Class方法,用于仅使用类别名称进行文本分类。实验结果显示,这些方法在多种任务中展现出优秀性能。
摘要由CSDN通过智能技术生成

点击蓝字

b2e73bfcb01fcadebe75db2a5f59ab32.png

关注我们

AI TIME欢迎每一位AI爱好者的加入!

大数据时代的我们每天沉浸都在海量的自然语言数据中,比如新闻、社交网络、学术论文等等。如何根据用户需求高效地、自动地消化这些海量文本数据、将其结构化,并最终能被人理解、让机器可以运算,自然而然地成为了文本挖掘和自然语言处理领域里的最大难题。我们组的研究工作主要致力于如何将这个过程中所需要的监督信号需求降到最低,与此同时能尽可能地保证质量。在本次报告中,我们将展示一系列的弱监督和无监督的文本挖掘方法。我们会重点讨论两个问题:(1) 如何在没有任何人工标注的情况下,从特定领域的海量文本中去发现新兴的、不常见的词组?(2) 如何在只有各个类的名称的情况下,从海量纯文本出发来构建一个文本分类器?

本期AI TIME PhD直播间,我们邀请到加州大学圣地亚哥分校 (UCSD) 计算机系和数据科学学院助理教授——商静波,为我们带来报告分享《如何通过极弱监督来完成海量文本的结构化》。

865137429f126c0ab4e6523afdba7fd3.png

商静波

现任加州大学圣地亚哥分校 (UCSD) 计算机系和数据科学学院助理教授。 从上海交大ACM班和伊利诺伊大学厄巴纳香槟5分校(UIUC)获得学士和博士学位。他的研究主要致力于利用大数据驱动的方法将海量文本数据结构化,从而大量减少所需要的人工标注。其成果已被多个奖项所认可,包括2021年谷歌学者和2020年SIGKDD 博士论文奖亚军。

01

背  景

互联网时代中,我们日常都会接触大量的数据。这些数据包括文本、图片等。对我们而言,如何消化这些数据,将他们转化为有结构的insights,最后是人们能够做出决策,机器也能进一步进行挖掘工作。

因此我们提出一个自动的模型,将这些无结构的文本转化为有结构的知识和insights。

  • Structuring将原始文本转化为知识的关键

  • 不同层次的机器可操作结构

文本分类(结果可以做推荐系统等);词组(实体、关系)挖掘——做问答;

传统方法

5e25ba01bc25195769c2d0e36dfba20b.png

这些数据需要大量的人力来标注,而且不同领域的数据需要不同领域的专家来标注。因此,我们需要一个extremely weak supervision,极弱监督。

什么是极弱监督?没有这个监督信号做不了,有一点监督信号就能做的不错。不断压缩需要的人力投入。

举例:文本分类

无监督情况下文本分类没有办法实现,因为分类的标准过多。比如对于新闻来说,可以按照主题分类,也可以按照地域分类。但如果我们先获取他的分类标准,就算是在有一点监督信号的情况下实现了文本分类,即文本分类这个task下的极弱监督。我们这个project中的目标便是在不同task中完成相应的极弱监督。

  • UCPhrase: Unsupervised Context-aware Phrase Tagging (KDD’21)在没有监督的情况下,找到上下文中所有重要的词组在哪里。

Phrase Mining

举例:目前有很多新闻报道,没有Phrase Mining的情况下就只能手动统计各个词频,

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值