1. 语料库的类别: 语料库可分为生语料库和标注语料库。 标注语料库,如分词库,分词与词性标注库,树库,命题库,篇章树库。 中文分词库的目的是训练和测试汉语的自动分词系统,其他库的目的类似。 树库以句法结构信息为主要标注内容。 命题库以谓词-论元结构信息为主要标注内容。 篇章树库以篇章结构信息为主要内容。 也有语料库可用于文本分类,主题检测(如搜狗文本分类语料库)。