机器学习一(1)特征工程介绍

机器学习(1)特征工程

1.1数据集

  • 构成:特征值+目标值
  • 参考书籍:
    机器学习 -”西瓜书”- 周志华
    统计学习方法 - 李航
    深度学习 - “花书

1.2 sklearn数据集API介绍

  • sklearn.datasets
    load_* 获取小规模数据集: sklearn.datasets.load_iris()
    fetch_* 获取大规模数据集: sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’)

  • 数据集的返回值: datasets.base.Bunch(继承自字典)
    dict[“key”] = values
    bunch.key = values

1.3数据集的划分

  • sklearn.model_selection.train_test_split(arrays, *options)
    训练集特征值,测试集特征值,训练集目标值,测试集目标值
    x_train, x_test, y_train, y_test
    默认为测试集为25%

1.4特征工程

  • 特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
  • pandas:一个数据读取非常方便以及基本的处理格式的工具
    sklearn:对于特征的处理提供了强大的接口
  • 包含内容:特征抽取,特征预处理,特征降维
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值