Sklearn之日常所见

sklearn.datasets.fetch_20newsgroups


sklearn.datasets.fetch_20newsgroups(data_home=None, subset=’train’, categories=None, shuffle=True, random_state=42, remove=(), download_if_missing=True)

加载20个新闻组数据集的文件名和数据。

参数说明
data_home可选属性,默认为 None ,指定数据集的下载和缓存文件夹。 如果为 None ,则所有 scikit-learn 数据都存储在 ‘〜/ scikit_learn_data’ 子文件夹中。
subset可选属性,可以为 train’test, all ,选择要加载的数据集:train 为训练集,test 为测试集,all 为训练集和测试集
categoriesNone 或字符串集合或 unicode ,默认为 None ,表示加载所有类别。如果不为空,则加载指定的类别。
shuffle可选属性, bool 类型。选择是否对数据集进行 shuffle 操作。
random_statenumpy 随机数生成器或整数种子。用于对数据集进行 shuffle 操作。
remove可能包含( ‘headers’, ‘footers’, ‘quotes’)的任何子集。 其中每种都是将从新闻组帖子中检测到并删除的文本类型,从而防止分类符过度拟合元数据。
download_if_missing可选属性,默认为 True 。如果为 False ,若数据不是本地可用的,而是尝试从源站点下载数据,则引发 IOError
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值