语种 | 数据名 | 数据集大小 | 数据详情 | 数据地址 |
---|---|---|---|---|
英文 | CoNLL03 | 15,000 | PER/LOC/ORG/MISC | https://www.clips.uantwerpen.be/conll2003/ner/ |
英文 | WiNER | wiki | http://rali.iro.umontreal.ca/rali/en/winer-wikipedia-for-ner | |
英文 | OntoNotes 5.0 | https://catalog.ldc.upenn.edu/LDC2013T19 | ||
英文 | Few-NERD | 188,200 | 8 个粗粒度类、66 个细粒度类 | https://ningding97.github.io/fewnerd/ |
英文 | W-Nut | 新兴实体、noisy | http://noisy-text.github.io/2017/files/wnut17train.conll | |
英文 | HYENA | 50,000 | Wiki | https://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/hyena |
英文 | WikiNER | 7,200 | Wiki、九种语言 | https://github.com/dice-group/FOX/tree/master/input/Wikiner |
英文 | DAWT | 13.6M | Wiki \涵盖多种语言 | https://github.com/klout/opendata/tree/master/wiki_annotation |
英文 | WikiAnn | 95,924 | 使用 282 种不同语言的 Wikipedia 页面中的链接实体构建的 | https://elisa-ie.github.io/wikiann/ |
分享本人收集的命名实体识别(NER)数据集及其下载地址
于 2022-05-26 15:08:46 首次发布