"BLLIP 1987-89 WSJ Corpus Release 1" 通常指的是一个基于《华尔街日报》(Wall Street Journal, WSJ)的语料库,该语料库被BLLIP(Broad-coverage Linguistic Linked Information Pages)项目用于自然语言处理(NLP)研究。具体来说:
- BLLIP:BLLIP 是一个NLP研究项目,专注于构建高质量的自然语言分析系统,包括句法分析器、语义角色标注器等。
- 1987-89 WSJ Corpus:这个语料库包含了1987年至1989年间《华尔街日报》的部分文章。这些文章通常被用于训练和测试NLP系统的性能,因为它们包含大量的商业和金融领域的文本,具有广泛的词汇和句法结构。
该语料库通常被用于训练统计NLP模型,如句法分析器、命名实体识别器、语义角色标注器等。通过使用这种大规模的、标注过的语料库,研究人员可以训练出更强大、更准确的NLP系统。
获取方法:
方法1:注册LDC账号并加入组织获取数据,官网链接:LDC官网
方法2:关注公众号,回复BLLIP 1987-89 WSJ Corpus Release 1LDC语料小助手https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg