特征工程基本流程

最新推荐文章于 2022-11-27 14:44:16 发布

lwwtju

最新推荐文章于 2022-11-27 14:44:16 发布

阅读量907

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuweiweiqdlg/article/details/101016102

版权

特征工程基本流程

过程包含了特征提取、特征构建、特征选择。特征工程的目的是筛选出更好的特征，获取更好的训练数据，大多数工程师们做的事情基本是在数据仓库里搬砖，不断地数据清洗，再一个是分析业务不断地找特征。

1. 数据采集 / 清洗 / 采样

数据采集前需要明确采集哪些数据，一般的思路为：哪些数据对最后的结果预测有帮助？数据我们能够采集到吗？

数据清洗：包括缺失值处理，补齐可对应的缺省值。异常值检测与处理。异常值检测与处理就是要去除脏数据。不可信的样本丢掉，缺省值极多的字段考虑不用。

数据采样的方法有随机采样和分层抽样。但是随机采样会有隐患，因为可能某次随机采样得到的数据很不均匀，更多的是根据特征采用分层抽样。分层抽样是要先把所有元素按某种特征或标志（比如年龄、性别、职业或地域等）划分成几个类型或层次，再在其中采用前两种方法抽取一个子样本，所有子样本构成了总的样本。

2. 特征处理

2.1 数值型

1. 幅度调整/归一化：python中会有一些函数比如preprocessing.MinMaxScaler()将幅度调整到 [0,1] 区间。

2.统计值：包括max, min, mean, std等。python中用pandas库序列化数据后，可以得到数据的统计值。

3.离散化：把连续值转成非线性数据。pandas.cut() 可以直接把数据分成若干段。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
特征工程基本流程

特征工程基本流程过程包含了特征提取、特征构建、特征选择。特征工程的目的是筛选出更好的特征，获取更好的训练数据，大多数工程师们做的事情基本是在数据仓库里搬砖，不断地数据清洗，再一个是分析业务不断地找特征。1. 数据采集 / 清洗 / 采样数据采集前需要明确采集哪些数据，一般的思路为：哪些数据对最后的结果预测有帮助？数据我们能够采集到吗？数据清洗：包括缺失值处理，补齐可对应的缺省值。异...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。