Timebank数据集介绍,编号LDC2006T08

TimeBank数据集,特别是TimeBank 1.2,是一个专注于时间信息抽取和表示的数据集。它由布兰代斯大学(Brandeis University)开发,包含183篇英文新闻文章,并带有超过27,000个事件和时间注释。这些注释详细标注了文本中的时间信息,如日期、时间、持续时间等,以及事件和时间之间的时间联系。

TimeBank数据集遵循TimeML(Time Markup Language)规范,该规范旨在捕获和表示文本中的时间信息。在TimeBank中,时间信息通过四种主要标签类型来捕获:

  1. TIMEX3:用于捕获日期、时间、持续时间以及日期和时间集。例如,“2023年9月17日”或“5分钟”都可以被TIMEX3标签所标记。
  2. EVENT:用于对文本中标记其所描述的语义事件的元素进行注释。这些事件可能是一个动作、一个状态或一个过程。
  3. SIGNAL:用于表示时间信号,即那些暗示时间流逝或时间关系的词汇或短语。
  4. LINK:用于表示事件和时间之间的关系。例如,一个事件可能发生在另一个事件之前、之后或同时发生。

TimeBank数据集为自然语言处理中的时间信息抽取、时间关系推理等任务提供了丰富的资源。通过在这个数据集上进行模型训练和评估,研究人员可以评估他们的模型在理解和处理时间信息方面的性能。

需要注意的是,由于时间信息的复杂性和多样性,TimeBank数据集也具有一定的挑战性和难度。因此,在使用该数据集时,需要充分考虑到时间信息的特性和复杂性,并采用适当的模型和方法来进行处理。其文件结构如下:

 获取方法:

方法1:注册LDC账号并加入组织获取数据,官网链接:LDC官网

方法2:关注公众号,回复TimebankLDC语料小助手icon-default.png?t=N7T8https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值