TimeBank数据集,特别是TimeBank 1.2,是一个专注于时间信息抽取和表示的数据集。它由布兰代斯大学(Brandeis University)开发,包含183篇英文新闻文章,并带有超过27,000个事件和时间注释。这些注释详细标注了文本中的时间信息,如日期、时间、持续时间等,以及事件和时间之间的时间联系。
TimeBank数据集遵循TimeML(Time Markup Language)规范,该规范旨在捕获和表示文本中的时间信息。在TimeBank中,时间信息通过四种主要标签类型来捕获:
- TIMEX3:用于捕获日期、时间、持续时间以及日期和时间集。例如,“2023年9月17日”或“5分钟”都可以被TIMEX3标签所标记。
- EVENT:用于对文本中标记其所描述的语义事件的元素进行注释。这些事件可能是一个动作、一个状态或一个过程。
- SIGNAL:用于表示时间信号,即那些暗示时间流逝或时间关系的词汇或短语。
- LINK:用于表示事件和时间之间的关系。例如,一个事件可能发生在另一个事件之前、之后或同时发生。
TimeBank数据集为自然语言处理中的时间信息抽取、时间关系推理等任务提供了丰富的资源。通过在这个数据集上进行模型训练和评估,研究人员可以评估他们的模型在理解和处理时间信息方面的性能。
需要注意的是,由于时间信息的复杂性和多样性,TimeBank数据集也具有一定的挑战性和难度。因此,在使用该数据集时,需要充分考虑到时间信息的特性和复杂性,并采用适当的模型和方法来进行处理。其文件结构如下:
获取方法:
方法1:注册LDC账号并加入组织获取数据,官网链接:LDC官网
方法2:关注公众号,回复TimebankLDC语料小助手https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg