中文语料库整理

最新推荐文章于 2018-11-05 10:19:29 发布

核动力蜗牛Killua

最新推荐文章于 2018-11-05 10:19:29 发布

阅读量7.7k

点赞数 1

分类专栏： ☆机器学习与数据挖掘☆ 文章标签：自然语言处理 web 测试开放平台工具网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/killua_hzl/article/details/7666055

版权

☆机器学习与数据挖掘☆ 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

中文自然语言处理开放平台

由中国科学院计算技术研究所·数字化室＆软件室创立一个研究自然语言处理的一个平台，里面包含有大量的训练测试语料。
语料库： http://www.nlp.org.cn/docs/doclist.php?cat_id=9&type=15
文本语料库： http://www.nlp.org.cn/docs/doclist.php?cat_id=16&type=15

sogou文本分类语料库

文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点，网页规模约为十万篇文档。
地址： http://www.sogou.com/labs/dl/c.html

中文Web信息检索论坛

中文Web信息检索论坛(Chinese Web Information Retrieval Forum，简称CWIRF)是由北京大学网络实验室从2004年6月起建立并维护的以大规模中文Web信息为测试集的信息检索研究论坛。

CWT(Chinese Web Test collection, 中文Web测试集)：

ComPaper10th
Computer Paper collection with more than 10 thousand papers
CWT70th
Chinese Web Test collection with 70 thousand pages
CWT70th顺序读取程序
CWT200g
Chinese Web Test collection with 200 GB web pages.
CWT20g_of_200g
CWT200g样例下载
 CWT200g顺序读取程序

CWT相关工具

中文网页分类训练集

CCT2006
2006年3月中文网页分类训练集CCT2006, 编号YQ-CCT-2006-03. 根据常见的新闻类别而设定的分类体系，从新闻网站上抓取得到对应类别的新闻网页作为训练集页面。它包括960个训练网页和240个测试网页，分布在8个类别中。下载
CCT2002-v1.1
2002年中文网页分类训练集CCT2002-v1.1, 编号YQ-WEBBENCH-V1.1, 说明。是在CCT2002-v1.0 的基础上对类别进行了部分修正. 是2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生，人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。它包括11678个训练网页实例和3630个测试网页实例，分布在11个大类别中。下载

中文网页分类相关工具

转载请注明： 转载自 阿龙の异度空间

本文链接地址: http://blog.yidooo.net/archives/2509.html

核动力蜗牛Killua

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。