FreeDOM —— 一个可迁移的网页信息抽取模型

AITIME论道

于 2020-10-07 10:18:35 发布

阅读量635

点赞数 2

文章标签：算法人工智能编程语言机器学习深度学习

本文链接：https://blog.csdn.net/AITIME_HY/article/details/108958044

版权

FreeDOM是一个用于信息抽取的模型，旨在从不同领域的网站中自动抽取结构化信息，仅需少量初始标注数据。该模型通过学习DOM Tree的local feature和node之间的dependency，实现了在未标注网站上的扩展。在SWDE数据集上，FreeDOM表现出优越的性能，且不需要网页渲染，降低了计算成本。

摘要由CSDN通过智能技术生成

⬆⬆⬆ 点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

在网页中抽取结构化信息是一种非常重要的知识获取（Knowledge Discvoery）方式。为了构建一个领域的知识图谱，往往需要从涉及这个领域的众多网站中抽取结构化信息，从而促进知识库的补全和扩展。然而，每个网站都有不同的结构和对应的抽取规则(wrapper)，如果用人力来编写每个网页独自使用的规则，那么效率会大打折扣。为此，提出了一个可迁移的信息抽取模型，FreeDOM。它可以只用很少的初始标注网站数据，自动扩展到同领域的其他网站。该模型在公开数据集SWDE上得到了最优的效果且不需要渲染网页得到的视觉特征，更加轻便。

林禹臣，美国南加州大学（USC）计算机系三年级博士生，导师为Xiang Ren教授。研究方向为自然语言处理与人工智能方向的应用。专注在信息抽取(Information Extraction)、常识推理 (Commonsense Reasoning)、符号-神经计算 (Neuro-Symbolic Computation)等方向。已在ACL, EMNLP, KDD, WWW 等会议上发表多篇论文。

一、引言

讲者以汽车为例，介绍了此项工作面向的应用场景。在每一个domain（关于汽车、电影、图书等），有很多的entities（比如某个型号的汽车），在一个domain中往往有很多网站介绍不同的entity。针对在网页文档中进行信息抽取，讲者限定了模型的输入：detail page, 即关于某一个entity的具体页面，比如：关于某一部电影的详细页面或者是关于某一具体型号汽车的详细介绍等；输出为：期望得到相关类型的结构化信息，比如：汽车型号、价格、引擎以及燃油信息构成的一条data record extraction。

网页文档中进行信息抽取的应用有哪些呢？它可用于构建某一行业或某一个具体领域的知识图谱，或应用于问答系统、推荐系统中。

图1. 网页中的信息抽取

假想：在一个具体的，不同的entity的detail page具有相似的结构。当只有三五个感兴趣的网站需要抽取时，可以1）：针对每一个website进行基于规则的matching program，常见的有wrapper方法；或者2）：通过人工标注，进行有监督的模型学习。这两种方法的缺点在于：泛化性低，只能应用在已标注