摘要
SWDE(Structured Web Data Extraction, 结构化Web数据抽取)是用于结构化Web数据提取的大规模真实数据集,是从事网页信息抽取算法研究必须使用的一个数据集。这篇文章翻译了SWDE的说明文档,包括数据集内容、数据概要、标注格式说明、下载地址、数据标注扩展等。
原文地址
原文出自SWDE数据集内部的说明文件。
Qiang Hao, Rui Cai, Yanwei Pang, and Lei Zhang. “From One Tree to a
Forest: a Unified Solution for Structured Web Data Extraction”. in
Proc. of the 34th International ACM SIGIR Conference on Research and
Development in Information Retrieval (SIGIR 2011), pp.775-784,
Beijing, China. July 24-28, 2011.
以下是译文
动机
该数据集是一个真实的网页集合,用于研究从Web自动提取结构化数据(例如,实体的属性值对)。我们希望它能作为评估和比较结构化Web数据提取的不同方法的有用基准。
内容
目前数据集涉及:
- 8个具有不同语义的垂直领域;
- 80个网站(每个垂直领域10个);
- 124 291个网页(每个网站200~2 000个),每个网页有一个单一的数据记录,其中包含一个实体的详细资料;
- 32个属性(每个垂直领域3~5个),与每个网页中仔细标注的真实值相关联。结构化数据提取的目标是从网页中自动识别这些属性的值。
数据集概要
涉及的垂直领域总结如下表:
Vertical | #Sites | #Pages | #Attributes | Attributes |
---|---|---|---|---|
Auto | 10 | 17,923 | 4 | model, price, engine, fuel_economy |
Book | 10 | 20,000 | 5 | title, author, isbn_13, publisher, publication_date |
Camera | 10 | 5,258 | 3 | model, price, manufacturer |
Job | 10 | 20,000 | 4 | title, company, location, date_posted |
Movie | 10 | 20,000 | 4 | title, director, genre, mpaa_rating |
NBA Player | 10 | 4,405 | 4 | name, team, height, weight |
Restaurant | 10 | 20,000 | 4 | name, address, phone, cuisine |
University | 10 | 16,705 | 4 | name, phone, website, type |
原始数据
数据集中的每个网页都存储为一个.htm文件(采用 UTF-8 编码),其中第一个标记(译注:<base>
标签)对页面的原始 URL 进行编码。
标注文件格式
对于每个网站,页面级属性值的真实值是使用人工正则表达式标注的,并存储在.txt文件(采用 UTF-8 编码)中,命名为"<vertical>-<site>-<attribute>.txt".
在每个文件中:
(译注:请参考文件截图,第二行的统计数字)
-
a) 第一行存储了领域、网站和属性的名称,用制表符(“\t”)分隔。
-
b) 第二行存储了一些统计数据(由
TAB
分隔):[1] 第一个数字是总网页数; [2] 第二个数字是包含属性值的网页数; [3] 第三个数字是页面中包含的属性值的总数; [4] 第四个数字代表唯一属性值的数量。
-
c) 其余每行分别存储了每个网页包含的先验信息(由
TAB
分隔),按顺序分别是:[1] page ID; [2] 网页中包含的属性值数量; [3] 属性值 (如果不存在,用`<NULL>`表示 )。
关于标注数据的说明
- 人工标注是以DOM节点级别进行组织的。更具体地说,网页中的候选属性值是相应DOM树中文本节点中包含的非空字符串。
- 一个页面(尽管只包含一条数据记录)可能包含多个不同的值,这些值对应于一个属性(例如,一本书的多个作者、多个粒度级别的地址)。
- 当前,当文本节点呈现多个属性的混合时,如果没有可用的替代项,则其字符串值将用于这些属性中的每个属性进行标记。
d) Before being stored in .txt files, the raw attribute values were refined by removing redundant separators (e.g., ’ ', ‘\t’, ‘\n’). - 在被储存在
.txt
文件中之前,原始属性值通过删除冗余分隔符(例如,
,\t
,\n
)进行改善。
(译注:原文内容到此结束)
SWDE数据集下载地址
SWDE数据集扩展
https://www.colinlockard.com/expanded_swde.html
这个扩展数据集的目的是鼓励针对半结构化Web源的开放信息提取(OpenIE)的研究。原始 SWDE 数据集包含来自 8 个垂直领域的 80 个网站的 HTML 页面,以及这些页面上存在的一些关系的一组标签。此扩展中的标签为其中 3 个垂直方向中的 21 个站点提供了附加注释,并标记了涉及每个页面的主题实体的所有二元关系。
扩展数据标注下载地址
“OpenCeres: When Open Information Extraction Meets the Semi-Structured Web” Colin Lockard, Prashant Shiralkar, Xin Luna Dong in Proceedings of the North American Chapter of the Association for Computational Linguistics (NAACL) , 2019
总结
这篇文章翻译了SWDE的说明文档,并涵盖了Colin Lockard
等人对该数据集的扩展标注工作。