fetch_20newsgroups函数介绍

本文介绍了20 newsgroups数据集,包含18000多篇新闻文章,分为20个类别,是常用的自然语言处理(NLP)实验数据集。该数据集提供了两个加载器:fetch_20newsgroups返回原始文本,fetch_20newsgroups.vectorized提供预处理的特征向量。文中还提及了如何访问数据集的DESCR、data、target、target_names和filenames等属性。
摘要由CSDN通过智能技术生成

 

目录

 

     简介

       数据集特征

       Topic Categories(20个)

       Loaders

       定义使用20 newsgroups

       常用语料库方法


     简介

       20 newsgroups数据集包括18000多篇新闻文章,涉及到20个Topic(话题),所以称作20 newsgroups text dataset,分为两部分:训练集测试集。由Ken Lang收集,是用在机器学习实验国际标准数据集之一,例如比较流行于文本分类聚类实验。

       数据集特征

特征 特征值
Classes(Topic\Categories,话题) 20
Samples total  18846
Dimensionality   1
Features  text

       Topic Categories(20个)

   

['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'com
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值