我对机器学习的整理理解

  在机器学习通常来说,特征工程对模型性能影响最大,参数调优一般提升不如特征工程提升。
  首先需要对数据进行充分探索,如属性是字符串类型、日期类型 还是 数值类型;若提供的数据存在几张表中,表中数据是否存在关联,是否可以进行统计、聚合;从业务理解上,可能影响模型性能的因素有哪些,表中数据能否构造该因素。
  其次,我们需要对数据进行预处理。对字符串、categories 一般来说我们可以:
  1.直接删去,不使用该列数据。这种处理方式对模型效果影响较大
  2.进行LabelEncoder处理。可用sklearn提供的LabelEncoder API将categories映射到数值(1,2,3…)上去,或者自定义一个映射标准,通常来说自定义映射标准会更好,如果我们的数据是会变动的,某天可能新增一个类型,自定义映射可保证映射结果一致。LabelEncoder这种处理方式会引入顺序,隐含类2 > 1 的意思在里面。对树模型影响不大,对距离模型影响稍微大一点
  3.进行one_hot编码,通过sklearn 提供的 API:OneHotEncoder(handle_unknown=‘ignore’, sparse=False)可以将属性返回numpy形式,可以一定程度解决稀疏问题。
  对于数值来说,一般需要观察是否具有缺失值(插补、舍去)、异常值(修正、舍去)、离群点(修正、舍去),而后对其进行相应的操作。

下图为我对机器学习的整体认知,并详细标注了数据预处理 & 特征工程的处理方式:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值