Sogou news-数据集

169 篇文章 31 订阅

2,909,551 篇来自 SogouCA 和 SogouCS 新闻语料库 5 个类别的新闻文章。每个类别分别包含 90,000 个训练样 本和 12,000 个测试样本。这些汉字都已经转换成拼音。

This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.

译:

本文对字符级卷积网络(ConvNets)在文本分类中的应用进行了实证研究。我们构建了几个大规模的数据集,以证明字符级卷积网络可以达到最先进或最具竞争力的结果。比较了传统模型,如单词包、n-grams及其TFIDF变体,以及基于单词的ConvNets和递归神经网络等深度学习模型。

大家可以到官网地址下载数据集,我自己也在百度网盘分享了一份。可关注本人公众号,回复“2020082502”获取下载链接。

 


 

只要自己有时间,都尽量写写文章,与大家交流分享。

本人公众号:

CSDN博客地址:https://blog.csdn.net/ispeasant

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不务正业的猿

谢谢您的支持与鼓励!!!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值