sklearn.datasets.fetch_20newsgroups英文文档翻译

sklearn.datasets. fetch_20newsgroups(data_home=None, subset='train', categories=None, shuffle=True, random_state=42, remove=(), download_if_missing=True)


fetch_20newsgroups的作用是加载文件名,加载20个新闻群组数据集中的数据
参数:data_home:可选参数,默认值为:None
指定一个电脑中的路径来存储加载的数据。如果选择默认,那所有的scikit-learn数据都存储在'~/scikit_learn_data'这个子文件夹中
      subset:'train'或者'test','all',可选参数
选择加载得到的数据集用来做训练还是做测试,或者是两者都选择,可以随用户需要来选择
      categories:空集,或者是字符串集合,或者是unicode码
      shuffle:bool布尔类型,可选参数
是否需要打乱数据:这一参数对于一些需要让假设样本数据具有独立同分布的模型来说至关重要,如随机梯度下降
      random_state:numpy随机数产生器,或者是种子整数
主要是用来清洗数据
      remove:元组
包含头文件(‘headers’,‘footers’,'‘quotes’)的所有子集。都是从新闻群组帖子中被检测或者是移除的各种各样的文本,防止分类器在利用复杂数据特征属性进行分类过程中过拟合
'headers'去除新闻的头部数据, 'footers'去除新闻位置最后类似于签名区域的一整块区域,'quotes'移除引用其他新闻帖子的行
'headers'遵从一个精确的标准;其他的过滤器不一定一直正确
      download_if_missing:可选参数,默认值是:真(True)
如果是Flase, 数据不是本地可获取的就会引起一个IOError,而不是尝试着从资源网站下载。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值