数据挖掘-数据预处理的简单流程

最新推荐文章于 2023-03-14 22:19:16 发布

我是小飞猪

最新推荐文章于 2023-03-14 22:19:16 发布

阅读量1.7k

点赞数

分类专栏： Python 数据挖掘

本文链接：https://blog.csdn.net/weixin_43477082/article/details/85222218

版权

18 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

此流程是一种简单的写法，在其他具体问题分析时，需有自己的分析方法，具体情况具体分析。

查看train_data与test_data 的个特征列的直方图分布情况，去掉分布特差的特征（分布特别不一致的那种）。
# 标准化后数据可视化
for col in data_minmax.columns:
plt.figure()
plt.title(col)
seaborn.distplot(data_minmax[col], label=‘minmax’)
seaborn.distplot(train[col], label=‘train’)
seaborn.distplot(test[col], label=‘test’)
plt.legend()
# plt.show()
plt.savefig(‘IMAGE/minmax_{}.jpg’.format(col))
对剩余数据进行数据标准化
preprocessing.minmaxsclar or Standard or minmax
3.对某些特征进行正太分布处理，使其符合正太分布

4.特征选择，剔除掉方差过小的特征

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注