1. 背景及目的
背景:市场竞争加剧,航空公司面临旅客流失,竞争力下降和资源未充分利用等经营危机。针对不同客户群体,制定不一样的营销策略,提供个性化服务是必须和有效的。
目的:借助航空公司客户数据,对客户进行分类。
案例来源:《Python数据分析与挖掘》
数据链接:https://pan.baidu.com/s/1-_BtDa-W3CyzKy8jC7bkMQ 提取码:72vp
2. 数据特征含义
3. 结果展示
4. Python代码实现
#导入需要的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
#解决中文显示问题
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
#导入航空数据
airline_data=pd.read_csv(u'C:\\Users\\Administrator\\Desktop\\air_data.csv',
encoding='gb18030')
airline_data.head()
#数据总览
airline_data.info()
airline_data.describe()
#票价数据缺失500个左右,相对总数据量,影响不大。将票价缺失的数据去除。
exp1=airline_data['SUM_YR_1'].notnull()
exp2=airline_data['SUM_YR_2'].notnull()
exp=exp1&exp2
airline_notnull=airline_data.loc[exp,:]
airline_notnull.info()
#筛选数据
#只保留票价非零的,或者平均折扣率不为0且总飞行公里数大于0的记录
index1=airline_notnull['SUM_YR_1']!=0
index2=airline_notnull['SUM_YR_2']!=0
index3=(airline_notnull['SEG_KM_SUM']>0)&(airline_notnull