Cross-Lingual Document Classification
跨语言文档分类,指在训练数据多的语言分类任务中训练模型,用于另一种文本较少的语言分类任务。
是否可以在一种语言分类中训练gml模型中的参数(因子的参数等),再用于另一种语言分类任务?
Reuters RCV1/RCV2 English-to-German:
路透社的不同语言的新闻报道。
MLDoc (Multilingual Document Classification Corpus):
多语言文档分类语料库,是涵盖英语,德语,法语,西班牙语,意大利语,俄语,日语和中文的跨语言文档分类数据集。
Facebook根据路透社语料库构建。原语料库中不同语言之间的类先验分布有显着差异,此数据集先验类别较均衡。
MLDoc Zero-Shot English-to-Chinese: