java分类Kdd99数据集_【数据】主题分类数据集

数据集是机器学习无法忽视的话题,我们根据数据集的类型,收集一些常用的数据集,方便大家快速找到自己需要的数据集。

DBpedia

Dbpedia – a large-scale, multilingual knowledge base extracted from wikipedia

DBpedia 是一个大型的、多语言的、来自Wikipedia 的数据集。DBpedia会每个月发布一个新版本,每一次发布都会新增或删除一些类别(classes)和属性(properities) 。最常用的版本包含 560000 条训练样本和 70000 条测试样本,包含14种标签。

Ohsumed

http://davis.wpi.edu/xmdv/datasets/ohsumed.html

这个数据集是 MEDLINE 数据集的子集。Ohsumed包含 7400 篇文章。每一篇文章是一个医学文摘(medical abstract),至少有一个或多个标签,这些标签来自23种心血管疾病类别。

EUR-Lex

Efficient pairwise multilabel classification for large-scale problems in the legal domain

该数据集的最常用版本收集了不同领域的欧盟法律,并包含 19314 个文档和 3956 个类别。

WOS

Hdltex: Hierarchical deep learning for text classification

Web of Science(WOS) 数据集收集了 Web of Science 上发表的文章。Web of Science 是世界上最受信任的、独立于发行商的全球引文数据库。

WOS已发布三个版本:WOS-46985,WOS-11967 和 WOS-5736。其中 WOS-46985 是完整的数据集。WOS-11967 和 WOS-5736 是 WOS-46985 的两个子集。

PubMed

Pubmed and beyond: a survey of web tools for searching biomedical literature

PubMed 是由美国国家医学图书馆开发的搜索引擎,用于搜索医学和生物科学论文,其中包含文献收藏。每个文档都用 MeSH标签集 来标注类别。

摘要中的每个句子都使用以下类别之一:背景,目标,方法,结果或结论;以说明该句子在摘要中的作用。

其他常见数据集

PubMed 200k RCT

Pubmed 200k rct: a dataset for sequential sentence classification in medical abstracts

Irony

Humans require context to infer ironic intent (so computers probably do, too)

参考文献

Deep Learning Based Text Classification: A Comprehensive Review

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值