1. 语料库的类别:
语料库可分为生语料库和标注语料库。
标注语料库,如分词库,分词与词性标注库,树库,命题库,篇章树库。
中文分词库的目的是训练和测试汉语的自动分词系统,其他库的目的类似。
树库以句法结构信息为主要标注内容。
命题库以谓词-论元结构信息为主要标注内容。
篇章树库以篇章结构信息为主要内容。
也有语料库可用于文本分类,主题检测(如搜狗文本分类语料库)。
语料库可分为通用库和专用库。
专用库如,科技语料库,北京口语语料库,中文地名标注语料库等。
2. 部分公开发布的语料库的网址:
1998年北京大学人民日报语料库:
(中文分词语料库)
LDC中文树库:
网址http://www.cis.upenn.edu/~chinese/ctb.html,包含词性标注和句法标注。
北京语言大学的语料库:
清华大学的汉语均衡语料库TH-ACorpus:
山西大学的语料库:
台湾中研院的语料库:
现代汉语平衡语料库:
近代汉语标记语料库:
古汉语语料库:
台湾南岛语典藏:
闽南语典藏:
汉籍电子文献:
香港城市大学的 LIVAC 共时语料库:
浙江师范大学的历史文献语料库:
中国科学院计算所的双语语料库:
中文语言资源联盟:http://www.chineseldc.org/xyzy.htm
语料库可分为生语料库和标注语料库。
标注语料库,如分词库,分词与词性标注库,树库,命题库,篇章树库。
中文分词库的目的是训练和测试汉语的自动分词系统,其他库的目的类似。
树库以句法结构信息为主要标注内容。
命题库以谓词-论元结构信息为主要标注内容。
篇章树库以篇章结构信息为主要内容。
也有语料库可用于文本分类,主题检测(如搜狗文本分类语料库)。
语料库可分为通用库和专用库。
专用库如,科技语料库,北京口语语料库,中文地名标注语料库等。
2. 部分公开发布的语料库的网址:
1998年北京大学人民日报语料库:
(中文分词语料库)
LDC中文树库:
网址http://www.cis.upenn.edu/~chinese/ctb.html,包含词性标注和句法标注。
北京语言大学的语料库:
清华大学的汉语均衡语料库TH-ACorpus:
山西大学的语料库:
台湾中研院的语料库:
现代汉语平衡语料库:
近代汉语标记语料库:
古汉语语料库:
台湾南岛语典藏:
闽南语典藏:
汉籍电子文献:
香港城市大学的 LIVAC 共时语料库:
浙江师范大学的历史文献语料库:
中国科学院计算所的双语语料库:
中文语言资源联盟:http://www.chineseldc.org/xyzy.htm