机器学习之特征工程{数据的预处理}

最新推荐文章于 2022-08-17 23:28:32 发布

鹰眼2号

最新推荐文章于 2022-08-17 23:28:32 发布

阅读量292

点赞数

分类专栏： sklearn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35810838/article/details/88615151

版权

sklearn 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

是在特征抽取之后进行【也可以直接理解为异常值的处理】

参数（对谁处理）：二位数组

特征预处理：对数据进行预处理，通过特定的统计方法（数学方法）将数据转换成算法要求的数据

大致可分为三类：数值类型数据，类别型数据，时间类型【两种处理结果：前后特征值个数不变，特征值改变；前后特征值个数改变，特征值也改变

数值类型一般进行的是标准缩放【归一化，标准化】
类别型数据：one-hot编码
时间类型：时间的切片

sklearn特征处理的API: sklearn.preprocessing

sklearn.preprocessing.MinMaxscaler

归一化目的：使得一个特征对最总结果不会造成影响缺点：如果存在异常点，异常点对最大值和最小值影响太大，导致最终结果不能用。当一个属性的值的最大值与最小值的差距太大，就会覆盖别的特征的效果，为了避免对最终结果的影响，所以要进行归一化；

标准化：通过对原始数据进行变换，把数据变换到均值为0，标准差为1范围内。

表转化API:sklearn.preprocessing.StandardScaler

比较：

对于归一化来说：如果出现异常点，影响了最大值和最小值，那么结果显然会发生改变

对于标准化来说：如果出现异常点，由于具有一定数量，少量的异常点对于平均值的影响并不大，从而方差改变较小。

标准化在将来的预处理中是用的最多的，因为在已有样本足够多的情况下比较稳定，适合现代嘈杂的大数据场景

3.缺失值的处理

通常在pandas重进行，df.dropna()删除, df.fillna() 填补【平均值，中位数，以行或列进行，一般按行进行】

df.replace('?',np.nan) np.nan为float类型

参考：https://blog.csdn.net/weixin_38168620/article/details/79596798

sklearn中对缺失值处理的API:sklearn.proprocessing.Imputer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之特征工程{数据的预处理}

是在特征抽取之后进行【也可以直接理解为异常值的处理】参数（对谁处理）：二位数组特征预处理：对数据进行预处理，通过特定的统计方法（数学方法）将数据转换成算法要求的数据大致可分为三类：数值类型数据，类别型数据，时间类型【两种处理结果：前后特征值个数不变，特征值改变；前后特征值个数改变，特征值也改变数值...
复制链接

扫一扫

专栏目录

鹰眼2号 CSDN认证博客专家 CSDN认证企业博客

码龄8年

211: 原创

24万+: 周排名

112万+: 总排名

33万+: 访问

: 等级

3832: 积分

31: 粉丝

109: 获赞

26: 评论

415: 收藏

私信

关注

分类专栏

shell 7篇
python爬虫 25篇
python 30篇
区块链
python-常用算法
python数据结构 1篇
python算法 5篇
面试 2篇
WEB 7篇
Mysql 5篇
Mongodb 4篇
github 2篇
tornado 15篇
Redis 1篇
LPC201X 1篇
office 2篇
喜欢你 4篇
numpy 5篇
嵌入式 3篇
数据可视化 7篇
疑问
数据分析 4篇
flask 1篇
Django 1篇
sklearn 5篇
查漏 1篇
计算机基础 3篇
pandas 4篇
黑客
Tensorflow复习

最新评论

js中call()方法的用法
晴天Onlive: 额，一坨答辩
js中call()方法的用法
qq_42800417: 个人理解，属实是感觉说了很多，但是等于没说了。 .call本质等于是让sub调用了add方法，而不需要给sub对象写一个add方法。
js中call()方法的用法
Daes: 这写的有点垃圾。本身call执行只是改变this指向的。别耽误人
js中call()方法的用法
MRDONG1: 服了，被你误导了，箭头函数里能用call方法吗？普通函数是谁调用this指向谁，箭头函数都没有this
机器码与字节码的区别
软院少女不秃头: 终于理解机器码与字节码啦！感谢！最后一句很有用

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。