中文自然语言处理开放平台
由中国科学院计算技术研究所·数字化室&软件室创立一个研究自然语言处理的一个平台,里面包含有大量的训练测试语料。
语料库: http://www.nlp.org.cn/docs/doclist.php?cat_id=9&type=15
文本语料库: http://www.nlp.org.cn/docs/doclist.php?cat_id=16&type=15
sogou文本分类语料库
文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。
地址: http://www.sogou.com/labs/dl/c.html
中文Web信息检索论坛
中文Web信息检索论坛(Chinese Web Information Retrieval Forum,简称CWIRF)是由北京大学网络实验室从2004年6月起建立并维护的以大规模中文Web信息为测试集的信息检索研究论坛。
CWT(Chinese Web Test collection, 中文Web测试集):
ComPaper10th
Computer Paper collection with more than 10 thousand papers
CWT70th
Chinese Web Test collection with 70 thousand pages
CWT70th顺序读取程序
CWT200g
Chinese Web Test collection with 200 GB web pages.
CWT20g_of_200g
CWT200g样例下载
CWT200g顺序读取程序
中文网页分类训练集
CCT2006
2006年3月中文网页分类训练集CCT2006, 编号YQ-CCT-2006-03. 根据常见的新闻类别而设定的分类体系,从新闻网站上抓取得到对应 类别的新闻网页作为训练集页面。它包括960个训练网页和240个测试网页, 分布在8个类别中。 下载
CCT2002-v1.1
2002年中文网页分类训练集CCT2002-v1.1, 编号YQ-WEBBENCH-V1.1, 说明。 是在CCT2002-v1.0 的基础上对类别进行了部分修正. 是2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生, 人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。 它包括11678个训练网页实例和3630个测试网页实例,分布在11个大类别中。 下载