文本推理_又放大招!王威廉组开源表格文本大型推理数据集TabFact

图灵TOPIA 作者:刘静 编辑:李尔客 图灵联邦编辑部出品
NLP华人新星、CMU 博士、UC Santa Barbara 计算机科学系助理教授王威廉(William Wang)是学术圈内的积极分子,研究领域涵盖信息提取、社交媒体、语言和视觉、口语处理、机器学习理论和知识图谱等, 他也是社交媒体红人。
王威廉组又放大招了! 今天,他们在社交媒体上公布了组内陈文虎同学新推出的表格-文本推理数据集TabFact:  人工标注了16K维基百科表格上的11万个文字叙述 (文字是否符合表格中描述事实),用来测试人工智能在半结构化的表格和文字上的推理能力。 e814513fba2a595dd37bbe07c314fb28.png 现在资源已免费公开: https://github.com/wenhuchen/Table-Fact-Checking 验证基于给定证据的文本假设是否具有真实性的问题,也称为事实验证,在自然语言理解和语义表征的研究中起着重要作用。 但是,现有研究主要限于处理非结构化证据(例如,自然语言句子和文件、新闻等),而结构化证据(如表格、图表和数据库)下的验证仍未得到探索。 目的是研究以半结构化数据为证据的事实验证。 为此,他们构建了一个名为TABFACT的大规模数据集,其中包含人工标注了16K维基百科表格上的11万个文字叙述,这些叙述语句被标记为ENTAILED或REFUTED。 TABFACT更具挑战性,因为它涉及软语言推理和硬符号推理。 为了解决这些推理挑战,研究人员设计了两种不同的模型: Table-BERT和Latent Program Algorithm(LPA)。 Table-BERT利用最先进的预训练语言模型将线性化表格和语句编码为连续向量以进行验证。 LPA将语句解析为类似LISP的程序,并针对表执行它们以获取返回的二进制值。 这两种方法都达到了类似的精度,但离人类的性能还很远。 我们还进行全面的分析,显示出巨大的未来机会。 潜在程序算法(LPA)的简要架构如下所示: 54688b305bc94bdf6fabd90e59661d22.png Table-BERT的简要架构如下: 7862488933a99237c9c8a482f1f4d22e.png 论文: https://arxiv.org/pdf/1909.02164.pdf c7cf7763ee914cf72a8f3a2cd2aec66d.gif
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值