LDC(Linguistic Data Consortium,语言数据联盟)语料库包括阿拉伯语、汉语和英语新闻文本、布朗语料库全文、来自交换机与费舍库(Fisher Collection)数以百万计的英语电话语音以及美国英语口语词汇。LDC语料,包括ACE2005、TACRED、WSJ0、Ontonotes5.0、NYT(New York Times)、Gigaword、Conll2003、CTB9.0、TDT5、HKUST、TIMIT、TAC KBP等。
以下是一些语料库实例:
ACE2005(LDC2006T06)
WSJ0(LDC93S6A)
TACRED(LDC2018T24)
Ontonotes 5.0 (LDC2013T19)
New York Times (LDC2008T19)
Gigaword(LDC2011T07)
CTB9.0(LDC2016T13)
原文链接(附有下载流程):LDC语料介绍
LDC官方网站:LDC官方网站