点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
大数据时代的我们每天沉浸都在海量的自然语言数据中,比如新闻、社交网络、学术论文等等。如何根据用户需求高效地、自动地消化这些海量文本数据、将其结构化,并最终能被人理解、让机器可以运算,自然而然地成为了文本挖掘和自然语言处理领域里的最大难题。我们组的研究工作主要致力于如何将这个过程中所需要的监督信号需求降到最低,与此同时能尽可能地保证质量。在本次报告中,我们将展示一系列的弱监督和无监督的文本挖掘方法。我们会重点讨论两个问题:(1) 如何在没有任何人工标注的情况下,从特定领域的海量文本中去发现新兴的、不常见的词组?(2) 如何在只有各个类的名称的情况下,从海量纯文本出发来构建一个文本分类器?
本期AI TIME PhD直播间,我们邀请到加州大学圣地亚哥分校 (UCSD) 计算机系和数据科学学院助理教授——商静波,为我们带来报告分享《如何通过极弱监督来完成海量文本的结构化》。
商静波:
现任加州大学圣地亚哥分校 (UCSD) 计算机系和数据科学学院助理教授。 从上海交大ACM班和伊利诺伊大学厄巴纳香槟5分校(UIUC)获得学士和博士学位。他的研究主要致力于利用大数据驱动的方法将海量文本数据结构化,从而大量减少所需要的人工标注。其成果已被多个奖项所认可,包括2021年谷歌学者和2020年SIGKDD 博士论文奖亚军。
01
背 景
互联网时代中,我们日常都会接触大量的数据。这些数据包括文本、图片等。对我们而言,如何消化这些数据,将他们转化为有结构的insights,最后是人们能够做出决策,机器也能进一步进行挖掘工作。
因此我们提出一个自动的模型,将这些无结构的文本转化为有结构的知识和insights。
Structuring将原始文本转化为知识的关键
不同层次的机器可操作结构
文本分类(结果可以做推荐系统等);词组(实体、关系)挖掘——做问答;
传统方法
这些数据需要大量的人力来标注,而且不同领域的数据需要不同领域的专家来标注。因此,我们需要一个extremely weak supervision,极弱监督。
什么是极弱监督?没有这个监督信号做不了,有一点监督信号就能做的不错。不断压缩需要的人力投入。
举例:文本分类
无监督情况下文本分类没有办法实现,因为分类的标准过多。比如对于新闻来说,可以按照主题分类,也可以按照地域分类。但如果我们先获取他的分类标准,就算是在有一点监督信号的情况下实现了文本分类,即文本分类这个task下的极弱监督。我们这个project中的目标便是在不同task中完成相应的极弱监督。
UCPhrase: Unsupervised Context-aware Phrase Tagging (KDD’21)在没有监督的情况下,找到上下文中所有重要的词组在哪里。
Phrase Mining
举例:目前有很多新闻报道,没有Phrase Mining的情况下就只能手动统计各个词频,