航空公司数据分析

本文介绍了对航空公司数据进行预处理,包括丢弃票价为空和无效记录,然后保留有效数据进行分析。接着,通过K-Means算法进行聚类,得到5个不同的客户群体,并进行了可视化展示。此外,还展示了如何使用Markdown和相关工具增强文章的格式和功能。
摘要由CSDN通过智能技术生成

航空公司数据分析

data = pd.read_csv(‘air_data.csv’,sep=",",engine=‘python’)#[62988 rows x 44 col]

print(data.columns)

##1.预处理数据:

(1)丢弃票价为空的记录。

exp1 = data[‘SUM_YR_1’].notnull()
exp2 = data[‘SUM_YR_2’].notnull()
exp = exp1 & exp2
airline_notnull = data[exp]

(2)保留票价不为0、平均折扣率不为0、总飞行千米数大于0的记录。

index1 = data[‘SUM_YR_1’] !=0
index2 = data[‘SUM_YR_2’] !=0
index3 = data[‘avg_discount’] !=0
index4 = data[‘SEG_KM_SUM’] >0
mask = (index1|index2) & index3 & index4
airline = airline_notnull[mask]

##选取特征值:
airline_selection = airline[[‘LOAD_TIME’,‘FFP_DATE’,‘FLIGHT_COUNT’,‘LAST_TO_END’,‘avg_discount’,‘SEG_KM_SUM’]]

##构建L特征:
L = pd.to_datetime(airline_selection[‘LOAD_TIME’]) - pd.to_datetime(airline_selection[‘FFP_DATE’])
L = L.astype(‘str’).str.split(’ ').str[0]
L = L.astype(‘int’)/30

print(L)

airline_feature = pd.concat([L, airline_selection.iloc[:, 2:6]], axis=1)

##标准化:(标准差标准化)
from sklearn.preprocessing import StandardScaler #标准差标准化方法
data = StandardScaler().fit_transform(airline_feature)

print(data)

#利用k-means算法聚类
from sklearn.cluster import KMeans
k = 5
#建模
kmeans_model = KMeans(n_clusters=5)
#训练模型
fit_kmeans = kmeans_model.fit(data)
#查看聚类中心

print(kmeans_model.cluster_centers_)

print(kmeans_model.labels_)

#查看类别有多少个数

print(kmeans_model.labels_[kmeans_model.labels_==0].size)

print(kmeans_model.labels_[kmeans_model.labels_==1].size)

print(kmeans_model.labels_[kmeans_model.labels_==2].size)

print(kmeans_model.labels_[kmeans_model.labels_==3].size)

print(kmeans_model.labels_[kmeans_model.labels_==4].size)

#可视化:

import matplotlib.pyplot as plt

center = kmeans_model.cluster_centers_

center_2 = center[:,0].reshape((5,1))

x_y = np.concatenate((center,center_2),axis=1)

angles = np.linspace(0,2*np.pi,5,endpoint=False)

labels = [‘L’,‘R’,‘F’,‘M’,‘C’]

angles = np.concatenate((angles,[angles[0]]))

for i in range(5):

plt.polar(angles, x_y[i],marker = ‘*’,linestyle = ‘:’)

plt.fill(angles,x_y[i],alpha = 0.3)

plt.xticks(angles,labels)

plt.show()

功能快捷键

撤销:Ctrl/Command + Z
重做:Ctrl/Command + Y
加粗:Ctrl/Command + B
斜体:Ctrl/Command + I
标题:Ctrl/Command + Shift + H
无序列表:Ctrl/Command + Shift + U
有序列表:Ctrl/Command + Shift + O
检查列表:Ctrl/Command + Shift + C
插入代码:Ctrl/Command + Shift + K
插入链接:Ctrl/Command + Shift + L
插入图片:Ctrl/Command + Shift + G

合理的创建标题,有助于目录的生成

直接输入1次#,并按下space后,将生成1级标题。
输入2次#,并按下space后,将生成2级标题。
以此类推,我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

如何改变文本的样式

强调文本 强调文本

加粗文本 加粗文本

标记文本

删除文本

引用文本

H2O is是液体。

210 运算结果是 1024.

插入链接与图片

链接: link.

图片: Alt

带尺寸的图片: Alt

居中的图片: Alt

居中并且带尺寸的图片: Alt

当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

  • 项目
    • 项目
      • 项目
  1. 项目1
  2. 项目2
  3. 项目3
  • 计划任务
  • 完成任务

创建一个表格

一个简单的表格是这么创建的:

项目 Value
电脑 $1600
手机 $12
导管 $1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值