实战1--航空公司客户价值分析（数据清洗篇）

最新推荐文章于 2024-03-02 14:03:26 发布

江大王

最新推荐文章于 2024-03-02 14:03:26 发布

阅读量1k

点赞数

分类专栏：数据分析学习总结

本文链接：https://blog.csdn.net/Jophy222/article/details/107108458

版权

数据分析学习总结专栏收录该内容

2 篇文章 1 订阅

订阅专栏

根据所获得的数据，处理不符合实际情况的数据

常用处理方法：

直接丢弃异常值（包括重复数据
Pandas:drop()/dropna()/drop_duplicated()
用一个新的属性、值替代原值(中位数、众数等)
Pandas:fillna()
针对连续型的数值，可以用插值
Pandas:interpolate()
小数据练习：
去除空值、标注异常值、去除重复值等

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 3, 5, 6], 'B': ['B1', 'B2', 'B3', 'B2', 'B5', 'B6'],
                   'C': [1.0, 2.5, None, 4.0, 5.0, 6.0], 'D': ['D1', 'D2', 'E3', 'D4', None, 'D5'],
                   'E': [0.1, 8.0, 10.0, 12.0, 9.0, 12.0]})
print(df)
# 数值的空值表示为NaN,而字符串的空值则表示为None
print(df.isnull())
# 去除所有空值
print(df.dropna())
# 去除部分空值(删除C列的空值)
print(df.dropna(subset=['C']))
# 查看重复值
print(df.duplicated(['A']))
# A为重复的且B也是重复的才能算是重复
print(df.duplicated(['A','B']))
# keep 的值有: first/last/false false表示都不要
print(df.drop_duplicates(['A'], keep='first'))
# 标注异常值
print(df.fillna('b*'))
# 异常值填入均值
print(df.fillna(df['C'].mean()))
# 填入插值
# 相邻两值的均值
print(df['C'].interpolate())
# 样条插值，其他方法名称自行百度
print(df['C'].interpolate(method="spline", order=3))
# 四分位数
up_q = df['E'].quantile(0.75)
low_q = df['E'].quantile(0.25)
# 查看间距
q_int = up_q - low_q
k = 1.5
# 去除D列异常值(数值大于low_q - k*q_int，并且数值小于up_q + k*q_int)
print([df[df['E'] > low_q - k*q_int][df['E'] < up_q + k*q_int]])
# 删除指定行
print(df.drop(1))
# 删除D列中不是以D开头的值
print(df[[True if item.startswith('E') else False for item in list(df['D'].values)]])

实战数据清洗过程

根据实际情况，排除不可能存在的数据。每个项目中去除数据都需要根据使用场景而言。
例如某人的购物记录：不存在消费次数大于0而消费金额小于0的情况存在等

import pandas as pd


data_file = '..\\project_07\\version2_chapter7\\demo\\data\\air_data.csv'
cleaned_file = '..\\project_07\\version2_chapter7\\demo\\tmp\\data_cleaned.csv'

# 读取数据
airline_data = pd.read_csv(data_file, encoding='utf-8')
print('原始数据的形状为：', airline_data.shape)

# 去除票价记录为空的记录
airline_not_null = airline_data.loc[airline_data['SUM_YR_1'].notnull() & airline_data['SUM_YR_2'].notnull(), :]
print('删除缺失记录后数据的形状为：', airline_not_null.shape)

# 只保留票价非零的，或者平均折扣率不为0且总飞行公里数大于0的记录
index1 = airline_not_null['SUM_YR_1'] !=0
index2 = airline_not_null['SUM_YR_2'] !=0
index3 = (airline_not_null['SEG_KM_SUM'] > 0) & (airline_data['avg_discount'] != 0)
# 去除年龄大于100的记录
index4 = airline_not_null['AGE'] > 100
airline = airline_data[(index1|index2) & index3 & ~index4]
print('数据清洗后数据的形状为：', airline.shape)

# 保存结果
airline.to_csv(cleaned_file)

注：项目来源于书《Python数据分析与挖掘实战（第二版）》

江大王

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
实战1--航空公司客户价值分析（数据清洗篇）

根据所获得的数据，处理不符合实际情况的数据处理方法：直接丢弃异常值（包括重复数据Pandas:drop()/dropna()/drop_duplicated()用一个新的属性、值替代原值(中位数、众数等)Pandas:fillna()针对连续型的数值，可以用插值Pandas:interpolate()小数据练习处理错误数据import pandas as pddf = pd.DateFrame({'A':[1,2,3,4,5,6],'B'['B1','B2','B3','B4']}
复制链接

扫一扫