一. 简介
很多数据集只能在LDC(Linguistic Data Consortium, https://www.ldc.upenn.edu/)获得,LDC语料库包括阿拉伯语、汉语和英语新闻文本、布朗语料库全文、来自交换机与费舍库(Fisher Collection)数以百万计的英语电话语音以及美国英语口语词汇。这里记录一下自己获取LDC的TACRED数据集遇到的一些问题。
二. 注册
1.1 邮箱注册
想要获取LDC下的某些数据集需要先注册账号(我注册使用的是学校统一的邮箱),注意注册过程中的所隶属机构不要选择错误。注册成功后邮箱会收到提示,根据链接激活账号后登录会发现账号显示“Guest”即来宾账户。(此时无法请求或购买数据)
1.2 隶属关系确认
随后邮箱会收到邮件提示:已向你注册时所提供的信息中的组织管理者发送邮件确认你的隶属关系,等待组织管理者确认你的身份后才能向LDC请求数据。
很多学校可能管理并不是很完善,很长时间都收不到身份确认,这时候你可以选择给LDC官方发邮件反应你的情况(我就是过了十多天都没人确认我的隶属身份)。一般LDC很快会回复邮件告知你组织管理者的一些信息,比如相应管理者的邮箱和电话等,接下来你就可以自己去联系组织管理者来确认那你的身份。
当身份被确认后,登录不再是“Guest”而是显示自己和组织机构的一些信息。右侧出现"Account Options"等字样。
三. 获取数据
上述操作全部完成后,即可搜索自己想要的数据集,滑至最下方可见:
点击“Request Data”后续就按提示进行相应操作。
在申请成功后,邮箱会受到提示邮件,并可查到相应发票信息,之后就是等待LDC的审核(可以邮件联系ldc@ldc.upenn.edu咨询进度),所有审核通过之后可以在”my account“界面右侧的”download“链接页面中找到相应的数据链接。
四.提示
获取的数据集不能传送给别人,仅限机构内使用。关于申请的数据集能不能用来发论文,本人还不是很清楚,欢迎大佬补充回答!
如果关于LDC语料还有其他问题,欢迎一起讨论交流!