目录
简介
20 newsgroups数据集包括18000多篇新闻文章,涉及到20个Topic(话题),所以称作20 newsgroups text dataset,分为两部分:训练集和测试集。由Ken Lang收集,是用在机器学习实验国际标准数据集之一,例如比较流行于文本分类或聚类实验。
数据集特征
特征 | 特征值 |
Classes(Topic\Categories,话题) | 20 |
Samples total | 18846 |
Dimensionality | 1 |
Features | text |
Topic Categories(20个)
['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'com