Web信息抽取——SWDE数据集简介（翻译）

coder1479

已于 2022-01-29 19:48:03 修改

阅读量1.8k

点赞数 5

分类专栏：信息抽取文章标签：算法数据挖掘

于 2022-01-29 19:47:17 首次发布

信息抽取专栏收录该内容

17 篇文章

订阅专栏

摘要

SWDE（Structured Web Data Extraction，结构化Web数据抽取）是用于结构化Web数据提取的大规模真实数据集，是从事网页信息抽取算法研究必须使用的一个数据集。这篇文章翻译了SWDE的说明文档，包括数据集内容、数据概要、标注格式说明、下载地址、数据标注扩展等。

文章目录

摘要
原文地址
动机
内容
数据集概要
原始数据
标注文件格式
关于标注数据的说明
SWDE数据集下载地址
SWDE数据集扩展
扩展数据标注下载地址
总结

原文地址

原文出自SWDE数据集内部的说明文件。

Qiang Hao, Rui Cai, Yanwei Pang, and Lei Zhang. “From One Tree to a
Forest: a Uniﬁed Solution for Structured Web Data Extraction”. in
Proc. of the 34th International ACM SIGIR Conference on Research and
Development in Information Retrieval (SIGIR 2011), pp.775-784,
Beijing, China. July 24-28, 2011.

以下是译文

动机

该数据集是一个真实的网页集合，用于研究从Web自动提取结构化数据（例如，实体的属性值对）。我们希望它能作为评估和比较结构化Web数据提取的不同方法的有用基准。

内容

目前数据集涉及：

8个具有不同语义的垂直领域;
80个网站（每个垂直领域10个）;
124 291个网页（每个网站200~2 000个），每个网页有一个单一的数据记录，其中包含一个实体的详细资料;
32个属性（每个垂直领域3~5个），与每个网页中仔细标注的真实值相关联。结构化数据提取的目标是从网页中自动识别这些属性的值。

数据集概要

涉及的垂直领域总结如下表：

Vertical	#Sites	#Pages	#Attributes	Attributes
Auto	10	17,923	4	model, price, engine, fuel_economy
Book	10	20,000	5	title, author, isbn_13, publisher, publication_date
Camera	10	5,258	3	model, price, manufacturer
Job	10	20,000	4	title, company, location, date_posted
Movie	10	20,000	4	title, director, genre, mpaa_rating
NBA Player	10	4,405	4	name, team, height, weight
Restaurant	10	20,000	4	name, address, phone, cuisine
University	10	16,705	4	name, phone, website, type

原始数据

数据集中的每个网页都存储为一个.htm文件（采用 UTF-8 编码），其中第一个标记（译注：<base>标签）对页面的原始 URL 进行编码。

标注文件格式

对于每个网站，页面级属性值的真实值是使用人工正则表达式标注的，并存储在.txt文件（采用 UTF-8 编码）中，命名为"<vertical>-<site>-<attribute>.txt".

在每个文件中:

（译注：请参考文件截图，第二行的统计数字）
在这里插入图片描述

a) 第一行存储了领域、网站和属性的名称，用制表符（“\t”）分隔。

b) 第二行存储了一些统计数据（由TAB分隔）：

  [1] 第一个数字是总网页数；
  [2] 第二个数字是包含属性值的网页数；
  [3] 第三个数字是页面中包含的属性值的总数；
  [4] 第四个数字代表唯一属性值的数量。

c) 其余每行分别存储了每个网页包含的先验信息（由TAB分隔），按顺序分别是：

 [1] page ID；
 [2] 网页中包含的属性值数量；
 [3] 属性值 (如果不存在，用`<NULL>`表示 )。

关于标注数据的说明

人工标注是以DOM节点级别进行组织的。更具体地说，网页中的候选属性值是相应DOM树中文本节点中包含的非空字符串。
一个页面（尽管只包含一条数据记录）可能包含多个不同的值，这些值对应于一个属性（例如，一本书的多个作者、多个粒度级别的地址）。
当前，当文本节点呈现多个属性的混合时，如果没有可用的替代项，则其字符串值将用于这些属性中的每个属性进行标记。
d) Before being stored in .txt files, the raw attribute values were refined by removing redundant separators (e.g., ’ ', ‘\t’, ‘\n’).
在被储存在.txt文件中之前，原始属性值通过删除冗余分隔符（例如,，\t，\n）进行改善。

（译注：原文内容到此结束）

SWDE数据集下载地址

http://web.archive.org/web/20210630013015/https://codeplexarchive.blob.core.windows.net/archive/projects/swde/swde.zip

SWDE数据集扩展

https://www.colinlockard.com/expanded_swde.html

这个扩展数据集的目的是鼓励针对半结构化Web源的开放信息提取（OpenIE）的研究。原始 SWDE 数据集包含来自 8 个垂直领域的 80 个网站的 HTML 页面，以及这些页面上存在的一些关系的一组标签。此扩展中的标签为其中 3 个垂直方向中的 21 个站点提供了附加注释，并标记了涉及每个页面的主题实体的所有二元关系。

扩展数据标注下载地址

https://www.colinlockard.com/swde_dataset.zip

“OpenCeres: When Open Information Extraction Meets the Semi-Structured Web” Colin Lockard, Prashant Shiralkar, Xin Luna Dong in Proceedings of the North American Chapter of the Association for Computational Linguistics (NAACL) , 2019