数据分析的步骤-数据的清洗、特征选择

最新推荐文章于 2022-04-28 15:05:07 发布

韩涛_gibbs

最新推荐文章于 2022-04-28 15:05:07 发布

阅读量665

点赞数

分类专栏：技术分享

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36564614/article/details/119243171

版权

技术分享专栏收录该内容

2 篇文章 0 订阅

订阅专栏

数据导入后对数据进行数据的分析和整理工作。好的数据清洗可以让未来的工作简单有效，对于未来的模型而言数据本身的质量决定了结果的上限，模型的选择和调优是不断趋近于这个上线的手段。

对于数据清洗而言首先应该对数据进行了解，了解数据的来源，通过来源可以对数据进行清洗和整理工作，

例如性别等字段可以将文字转化成向量等形式，同时可以对数据的空值等进行统计，根据数据的真实情况决定是否可以进行填补操作。
有的字段例如身高等字段需要通过分桶的技术将其进行类似降维处理。
时间字段根据实际情况可以进行多种变换，需要注意的是很多数据是字符串类型的，根据需要先要进行年月日的切分和转换。推荐pandas的date类型进行计算比较。
字符串的转换，例如地名等需要转换为数字形式，更多的是标签的转换。pandas-map()函数。

数据列的选取或者叫特征的选取

首先是根据现实的业务规范进行特征选取，因为现实的规范是日常经受过检验的特征选择，是经过相关学科验证后的知识。
其次根据已有的数据进行特征选取，已有数据主要是要看：一、数据的完整程度、二、数据于lable的关联性（相关性分析）参考https://zhuanlan.zhihu.com/p/94070722
特征的筛选可以通过xgboost等算法先训练一个基准模型，之后通过查看特征权重分布进行特征的选择

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。