一、研究背景
随着全球航空运输业的快速发展,航空旅行已经成为人们生活中不可或缺的一部分。特别是在中国,航空客运量持续增长,航空公司间的竞争也日益激烈。不同航空公司的价格策略和航班服务质量直接影响到乘客的选择和出行体验。在这个背景下,航班价格数据的分析和预测显得尤为重要。
航班价格不仅受航空公司自身的定价策略影响,还与多个因素密切相关,如航线、出发地和目的地、停站次数、起飞时间、到达时间、航班持续时间以及乘客的预订时间等。通过对这些因素的深入分析,可以帮助航空公司优化定价策略,提高市场竞争力;同时也可以为乘客提供价格预测服务,帮助他们在合适的时间购买机票,节省旅行成本。
本研究旨在通过Python数据分析技术,对航班价格数据进行探索性数据分析(EDA)和预测建模,找出影响航班价格的关键因素,并建立预测模型,为航班价格的动态定价和预测提供科学依据。
二、研究意义
-
优化航空公司定价策略:通过对航班价格数据的分析,航空公司可以了解影响价格的关键因素,从而优化定价策略,提高收益管理水平。在市场竞争激烈的环境中,合理的价格策略不仅可以吸引更多乘客,还可以提高公司的盈利能力。
-
提升乘客购票体验:价格预测模型可以帮助乘客在最合适的时间购买机票,避免支付过高的票价,从而节省旅行成本。特别是对于经常出差的商务人士和旅游爱好者,价格预测服务将极大地提升他们的购票体验。
-
促进航空市场透明度:通过公开的价格分析和预测,乘客可以对市场价格有更清晰的认知,避免因信息不对称而造成的价格歧视,促进航空市场的透明化和健康发展。
-
提供决策支持:政府相关部门和行业监管机构可以利用本研究的成果,监测和调控航空市场价格,保障消费者权益,维护市场公平竞争。
三、实证分析
该数据集提供了航班详细信息的全面概述,
航空公司:运营航班的航空公司的名称。
始发地和目的地:航班始发地和降落的城市。
总停靠站数:航班停靠的次数。
价格:相应航班的机票价格。
日期、月份和年份:安排航班的具体日期。
出发和到达时间:出发和到达的详细小时数和分钟数。
持续时间:以小时和分钟为单位的飞行总持续时间。
首先读取数据
import pandas as pd
import numpy as np
import seaborn as sns
from matplotlib import pyplot as plt
import networkx as nx
df = pd.read_csv('flight_dataset.csv')
df.head()
接下来对数据进行基本的分析
描述性统计分析
df.describe()
数据类型查看
df.info()
发现有字符型和数值型
接下来缺失值查看
df.isna().sum()
接下来查看重复行的数量
发现还不少,处理一下
df.drop_duplicates(inplace = True)
接下来查看数据形状
发现数据有10461行,14个特征
接下来清洗数据
接下来从价格列中删除异常值,以四分位数来判断
<