数据预处理
文章平均质量分 85
贪玩懒悦
这个作者很懒,什么都没留下…
展开
-
数据预处理流程
数据预处理流程总结 下面分享一下自己通常会用到的一些数据预处理的方法和步骤,用Kaggle平台上的elo用户忠诚度预测的数据集作为应用案例。 import numpy as np import pandas as pd import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']=['SimHei'] merchant = pd.read_csv(r'\原始数据\elo-merchant-category-recommendation\me原创 2022-03-01 17:47:23 · 4299 阅读 · 0 评论 -
数据分布探索函数(可以直接调用)
在建模之前要对数据进行探索性分析,首先要对数据分布有一个大致了解。matplotlib里面有自带的hist()函数,直接data.hist(),全部特征的分布状态就能在一张画布上展示出来,对于一个样本量较小的数据集来说,非常方便(700多个样本,60几个特征)。比如这样: 在一个样本量为300多万的数据集上面跑了一下,效果也还可以,优点是速度真的很快(对比后面自己写的那个函数)。但是真的没法看得很精细。比如这个数据集的几个特征分布图都有这样的特点(拿第一行第四幅图举例):大量数据集中在0附近,往后就空空如原创 2022-02-25 17:23:19 · 3351 阅读 · 0 评论