Web信息抽取——SWDE数据集简介(翻译)

摘要

SWDE(Structured Web Data Extraction, 结构化Web数据抽取)是用于结构化Web数据提取的大规模真实数据集,是从事网页信息抽取算法研究必须使用的一个数据集。这篇文章翻译了SWDE的说明文档,包括数据集内容、数据概要、标注格式说明、下载地址、数据标注扩展等。

原文地址

原文出自SWDE数据集内部的说明文件。

Qiang Hao, Rui Cai, Yanwei Pang, and Lei Zhang. “From One Tree to a
Forest: a Unified Solution for Structured Web Data Extraction”. in
Proc. of the 34th International ACM SIGIR Conference on Research and
Development in Information Retrieval (SIGIR 2011), pp.775-784,
Beijing, China. July 24-28, 2011.

以下是译文


动机

该数据集是一个真实的网页集合,用于研究从Web自动提取结构化数据(例如,实体的属性值对)。我们希望它能作为评估和比较结构化Web数据提取的不同方法的有用基准。

内容

目前数据集涉及:

  • 8个具有不同语义的垂直领域;
  • 80个网站(每个垂直领域10个);
  • 124 291个网页(每个网站200~2 000个),每个网页有一个单一的数据记录,其中包含一个实体的详细资料;
  • 32个属性(每个垂直领域3~5个),与每个网页中仔细标注的真实值相关联。结构化数据提取的目标是从网页中自动识别这些属性的值。

数据集概要

涉及的垂直领域总结如下表:

Vertical#Sites#Pages#AttributesAttributes
Auto1017,9234model, price, engine, fuel_economy
Book1020,0005title, author, isbn_13, publisher, publication_date
Camera105,2583model, price, manufacturer
Job1020,0004title, company, location, date_posted
Movie1020,0004title, director, genre, mpaa_rating
NBA Player104,4054name, team, height, weight
Restaurant1020,0004name, address, phone, cuisine
University1016,7054name, phone, website, type

原始数据

数据集中的每个网页都存储为一个.htm文件(采用 UTF-8 编码),其中第一个标记(译注:<base>标签)对页面的原始 URL 进行编码。

标注文件格式

对于每个网站,页面级属性值的真实值是使用人工正则表达式标注的,并存储在.txt文件(采用 UTF-8 编码)中,命名为"<vertical>-<site>-<attribute>.txt".

在每个文件中:

(译注:请参考文件截图,第二行的统计数字)
在这里插入图片描述

  • a) 第一行存储了领域、网站和属性的名称,用制表符(“\t”)分隔。

  • b) 第二行存储了一些统计数据(由TAB分隔):

      [1] 第一个数字是总网页数;
      [2] 第二个数字是包含属性值的网页数;
      [3] 第三个数字是页面中包含的属性值的总数;
      [4] 第四个数字代表唯一属性值的数量。
    
  • c) 其余每行分别存储了每个网页包含的先验信息(由TAB分隔),按顺序分别是:

     [1] page ID;
     [2] 网页中包含的属性值数量;
     [3] 属性值 (如果不存在,用`<NULL>`表示 )。
    

关于标注数据的说明

  • 人工标注是以DOM节点级别进行组织的。更具体地说,网页中的候选属性值是相应DOM树中文本节点中包含的非空字符串。
  • 一个页面(尽管只包含一条数据记录)可能包含多个不同的值,这些值对应于一个属性(例如,一本书的多个作者、多个粒度级别的地址)。
  • 当前,当文本节点呈现多个属性的混合时,如果没有可用的替代项,则其字符串值将用于这些属性中的每个属性进行标记。
    d) Before being stored in .txt files, the raw attribute values were refined by removing redundant separators (e.g., ’ ', ‘\t’, ‘\n’).
  • 在被储存在.txt文件中之前,原始属性值通过删除冗余分隔符(例如,\t\n)进行改善。

(译注:原文内容到此结束)

SWDE数据集下载地址

http://web.archive.org/web/20210630013015/https://codeplexarchive.blob.core.windows.net/archive/projects/swde/swde.zip

SWDE数据集扩展

https://www.colinlockard.com/expanded_swde.html

这个扩展数据集的目的是鼓励针对半结构化Web源的开放信息提取(OpenIE)的研究。原始 SWDE 数据集包含来自 8 个垂直领域的 80 个网站的 HTML 页面,以及这些页面上存在的一些关系的一组标签。此扩展中的标签为其中 3 个垂直方向中的 21 个站点提供了附加注释,并标记了涉及每个页面的主题实体的所有二元关系。

扩展数据标注下载地址

https://www.colinlockard.com/swde_dataset.zip

“OpenCeres: When Open Information Extraction Meets the Semi-Structured Web” Colin Lockard, Prashant Shiralkar, Xin Luna Dong in Proceedings of the North American Chapter of the Association for Computational Linguistics (NAACL) , 2019

总结

这篇文章翻译了SWDE的说明文档,并涵盖了Colin Lockard等人对该数据集的扩展标注工作。

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值