语料库
语料库作为自然语言处理领域中的数据集,使我们教机器理解语言不可或缺的习题集。在这一节中,我们来了解一下中文处理中的常见语料库,以及语料库建设的话题。
中文分词语料库
中文分词语料库指的是,由人工正确切分后的句子集合。
词性标注语料库
指的是切分并为每个词语指定一个词性的预料。总之,我们要教机器干什么,我们就得给机器示范什么。依然以《人民日报》语料库为例,1998年的《人民日报》一共含有43种词性,这个集合称作词性标注集。
命名实体识别语料库
这种语料库人工标注了文本内部制作者关心的实体名词以及实体类别。
句法分析语料库
将句子经过分词、词性标注和句法标注。
文本分类语料库
指的是人工标注了所属分类的文章构成的语料库。以著名的搜狗文本分类语料库为例,一共包含汽车、财经、IT、健康、体育、旅游、教育、招聘、文化、军事10个类别。