数据挖掘中的那些trick（持续更新）

最新推荐文章于 2022-12-31 10:18:36 发布

Chungchinkei

最新推荐文章于 2022-12-31 10:18:36 发布

阅读量585

点赞数

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39315740/article/details/94734646

版权

本文探讨了数据挖掘中的关键步骤，包括数据清洗的缺失值填充和异常值处理，以及特征编码的one-hot encoding方法。在数据清洗中，介绍了根据特征分布选择平均值或中位数填充缺失值，以及利用箱形图法识别和处理异常值。对于特征编码，解释了为何不能直接用数值编码类别型特征，并展示了如何使用独热编码避免引入偏见。最后提到了特征筛选的重要性。

摘要由CSDN通过智能技术生成

1.数据清洗

1.1 缺失值填充

在数据挖掘竞赛中，由于xgb、lgb的强大功能，很多时候训练模型并不需要对缺失值进行填充。
对于缺失量达到一定比例的特征，可以考虑将其舍弃。但在EDA作图或是REFCV特征筛选时，要求不能存在缺失数据，因此有时还是要对缺失值进行填充。
简单的缺失值填充可以参考以下原则：

特征服从正太分布时，采用平均值进行填充；
而当分布不呈正太分布时（大多数是长尾分布），使用中位数效果比较好。

dataset[feature].fillna(dataset[feature].mean())
dataset[feature].

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘中的那些trick（持续更新）

数据清洗箱形图法处理异常值箱形图法，又称为四分位数法，顾名思义，就是通过确定上下四分位数，来确定异常值的界限。中位数我们都知道，可以按照大小顺序地将数据分为等量的两部分。四分位数同理，上下四分位数与中位数共同作用，可以将数据分为4个部分，每个部分占原数据的25%。然后计算出四分位距，上界为上四分位数加上1.5倍的四分位距，下界为下四分位数减去1.5倍的四分位距，上下界以外的即为异常值。下面...
复制链接

扫一扫

专栏目录

Chungchinkei CSDN认证博客专家 CSDN认证企业博客

码龄7年

81: 原创

32万+: 周排名

43万+: 总排名

4万+: 访问

: 等级

1116: 积分

15: 粉丝

20: 获赞

16: 评论

98: 收藏

私信

关注

热门文章

分类专栏

机器学习 6篇
深度学习 1篇
大数据 10篇
Linux 5篇
常用算法 2篇
剑指Offer 48篇
LeetCode 25篇
Python 1篇
数据挖掘

最新评论

CentOS7+ Hadoop3.2.0+MySQL5.7安装配置Hive3.1.1
Nidalee_: 我的hive能启动能建库建表就报错我疯了
Spark的jupyter notebook开发环境搭建及pyspark的使用
lmw0320: 有几点不明之处，恳请指点下： 1. 远程linux服务器已经安装好了hadoop和spark, 但是没有安装python。只是本地的终端安装了python和jupyter，可以吧？ 2. 本地的终端连接远程的spark，需要在本地终端安装好pyspark吧？那本地是否也要安装spark和hadoop及JDK呢？？这点一直理不清楚。。
CentOS7 + Hadoop3.2.0 + Spark2.4.3搭建
偶白: 大哥，你的路径里面local都能拼错吗
剑指Offer 33.二叉搜索树的后序遍历序列（Python）
Chungchinkei: 这个跟完全二叉树没有关系，主要判断的是遍历的过程是不是先增后减的。如果是先增后减（搜索树大小性质），则index必然会等于size；如果遍历中有多个增减的过程，则证明该树不是搜索树。
剑指Offer 33.二叉搜索树的后序遍历序列（Python）
番茄大人: 不好意思啊，有点没看懂,二叉搜索树不是完全二叉树，请问为什么if index != size: return False 成立呢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。