目录
1、首先查看数据字段情况
data = pd.read_csv(res.FILE_PATH['test'], encoding="utf-8")
print(data.info())
查看前几行数据
data = pd.read_csv(res.FILE_PATH['test'], encoding="utf-8")
print(data.head())
2、查看字符串类型数字的具体数据类别
# 查看字符串类型数字的具体数据类别
data_types = data.dtypes
for col in data.dtypes.index:
if data_types[col] == object:
print('*' * 50)
print(col + ":")
print(len(np.unique(data[col].astype(str))))
# print(np.unique(data[col].astype(str)))
将字符串型的数字转为数字类型:
查看转换后空值的情况:
再次查看信息:
data = pd.read_csv(res.FILE_PATH['test'], encoding="utf-8")
print(data.describe().T)
3、异常值处理
data = pd.read_csv(res.FILE_PATH['test'], encoding="utf-8")
for col in data.columns.values:
if data[col].dtypes != object: # 排除字符串类型
bottom_quantile = data[col].quantile(q=0.75)
top_quantile = data[col].quantile(q=0.25)
# 分为数间距
distance = bottom_quantile - top_quantile
# 求数据上界和数据下界
# 这里假设为正态分布
k = 1.5
data_top = top_quantile + k * distance
data_bottom = bottom_quantile - k * distance
print('*' * 50)
print(data_top)
print(data_bottom)
# 异常值数量
print('异常值数量:', len(data[(data[col] < data_bottom) | (data[col] >
data_top)]))
方法一:
方法二:
方法三:
方法四:
4、空值处理
5、数据的标准化和归一化