【自然语言处理NLP】中文语料整理【情感分析、文本分类、摘要、实体分析】

个人开发在做很多NLP相关任务的时候,语料的寻找十分头疼。
有很多公开的语料,被他人收费,或要积分下载等等。
对平时开发造成诸多不便。
这边整理了一些自己收集到的语料方便大家使用

新闻文本分类语料

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。非常感激前辈及学习过程中的伙伴。
github地址:https://github.com/gaussic/text-classification-cnn-rnn#text-classification-with-cnn-and-rnn
下载地址

cnews新闻的子集精简版
本次训练使用了其中的10个分类,每个分类6500条数据。

类别如下:

体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐

这个子集可以在此下载:链接: https://pan.baidu.com/s/1hugrfRu 密码: qfud

搜狗新闻语料
来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息
http://www.sogou.com/labs/resource/ca.php
注意选择IE浏览器否则 下载失败

复旦大学语料

  • 16
    点赞
  • 84
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值