特征工程(科大讯飞阿泽大佬share)

本文介绍了时序预测任务中的特征工程,包括数据清洗、特征构造和特征选择。在数据清洗阶段,涉及定性变量编码、标准化、缺失值处理和异常值处理。特征构造通过统计量和周期值增强数据表达,而特征选择则通过过滤式、包裹式和嵌入式方法降低噪声,提升预测性能。
摘要由CSDN通过智能技术生成

时序预测任务简介

在这里插入图片描述

2.特征工程常见操作(数据清洗,特征构造,特征筛选)

数据清洗:提高数据质量,降低算法用错误数据建模的风险

  1. 特征变换:模型无法处理或者不适合处理
    a) 定性变量编码:Label Encoder;onehot encoder;distribution Encoder
    b)标准化和归一化(对于lr模型来说,但是xgb就不需要):z分数标准化(标准正态分布),min-max归一化
  2. 缺失值处理:减少不确定性和不可靠输出
    a)不处理:少量样本缺失
    b)删除:大量样本缺失
    c)补全:(同类)均值/中位数/众数补全,高维映射,模型预测,最邻近/向后/向前补全,矩阵补全(R-SVD)
  3. 异常值处理:减少脏数据
    a)简单统计:如describe()的统计描述,散点图等
    b)正态分布(3伽马法则)/箱型图阶段
    c)利用模型进行离群点检测:聚类,k近邻,one class SVM,isolation forest
  4. 其他:删除无效列/更改dtypes/删除列中的字符串/将时间
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值