下面在此分享一下一次课程作业的答题思路及个人答题结果。如有错误欢迎指正。
摘要 本案例通过对民航航线相关数据的分析,利用线性回归的分析方法,预测民航新开航线该如何定价,从而为相关部门新开航线的定价决策提供参考依据。
〇、题目说明
基于该数据找个问题切入完成一次个人作业。
作业建议包含以下内容:
1. 背景
2. 拟解决的问题
3. 解决方法和分析结果
4. 结果解读和建议
一、案例说明
1.1案例背景
从2022年10月30日至2023年3月25日,中国民航执行2022/23年冬春航季航班计划。据悉,今年冬春航季共有127家国内外航空公司计划每周安排104573班客货运航班(1个起降计1班)。多家航空公司近期宣布将恢复航线,部分航线机票价格也将呈现回落态势。基于此,如何制定这些航线的价格也将成为民航局关注的问题。如果能基于现行市场的运营数据,通过统计的方法对每条航线的价格进行有效评估,无疑将对业务运营具有非常好的现实意义。
1.2案例数据
在民航航线数据中,总计有1754条样本。每一个样本对应一条点到点、带有方向的正在运营的航线每天的运营数据,包括航线的出发地、到达地、里程、替代航线数目、替代航线平均价格、替代航线平均运量、替代航线平均里程、价格以及运量九个方面。
1.3分析目的
基于样本数据,研究目的是建立以航线价格为因变量的回归模型,探究影响价格的因素有哪些并得出结论。由此为航空公司未来给航线定价提供理论依据。
二、基本关系查看
为研究里程、替代航线数目、替代航线平均价格、替代航线平均运量、替代航线平均里程、价格以及运量共8项之间的相关关系,使用Spearman相关系数去表示相关关系的强弱情况并生成热力图如下:
从图中可知,航线价格与里程、替代航线数目、替代航线平均价格、替代航线平均运量、替代航线平均里程、运量之间的相关关系系数值呈现出显著性。且经计算,价格与各因素间均呈现出0.01水平的显著性。说明价格与里程、替代航线数目、替代航线平均价格、替代航线平均运量、替代航线平均里程各因素间有着显著的正相关关系;价格与运量之间有着显著的负相关关系。
三、模型建立
将各航线中的里程、替代航线数目、替代航线平均价格、替代航线平均运量、替代航线平均里程、运量作为自变量,将价格作为因变量,建立线性回归模型:
从而进行线性回归分析。
线性回归分析结果如下:
非标准化系数 | 标准化系数 | t | P | VIF | ||
B | 标准误 | Beta | ||||
常数 | 27.681 | 23.882 | - | 1.159 | 0.247 | - |
里程 | 0.255 | 0.063 | 0.344 | 4.055 | 0.000*** | 42.42 |
替代航线数目 | -9.712 | 1.909 | -0.09 | -5.088 | 0.000*** | 1.849 |
替代航线平均价格 | 0.426 | 0.026 | 0.378 | 16.184 | 0.000*** | 3.219 |
替代航线平均运量 | 0.125 | 0.017 | 0.104 | 7.438 | 0.000*** | 1.141 |
0.112 | 0.059 | 0.152 | 1.907 | 0.057* | 37.475 | |
运量 | -0.06 | 0.012 | -0.077 | -5.238 | 0.000*** | 1.279 |
因变量:价格 | ||||||
注:***、**、*分别代表1%、5%、10%的显著性水平 |
从表中我们可以发现里程和替代航线平均里程的VIF值大于10,因此此案例存在多重共线性的问题。后面我们可以采取逐步回归或岭回归分析解决共线性问题。
本案例采取逐步回归的方法,自动从可供选择的变量中选取最重要的几个变量,每次逐个引入自变量时,要保证其偏回归平方和经检验后是显著的。且每引入一个新变量后,要对旧的自变量逐个检验,剔除偏回归平方和不显著的自变量。由此建立回归分析的解释(预测)模型。
经计算,回归分析结果如下:
非标准化系数 | 标准化系数 | t | P | VIF | ||
B | 标准误 | Beta | ||||
常数 | 42.071 | 22.675 | 0 | 1.855 | 0.064* | - |
0.418 | 0.026 | 0.371 | 16.081 | 0.000*** | 3.127 | |
替代航线数目 | -9.472 | 1.906 | -0.088 | -4.969 | 0.000*** | 1.841 |
替代航线平均运量 | 0.126 | 0.017 | 0.105 | 7.508 | 0.000*** | 1.139 |
运量 | -0.062 | 0.012 | -0.079 | -5.396 | 0.000*** | 1.272 |
里程 | 0.37 | 0.019 | 0.499 | 19.571 | 0.000*** | 3.816 |
因变量:价格 | ||||||
注:***、**、*分别代表1%、5%、10%的显著性水平 |
3.1F检验
在回归方程的显著性检验中,统计量F = 826.162,对应p值远远小于0.01,被解释变量的线性关系是显著的,可以建立模型。
3.2R方和调整R方
经计算,模型 ,调整 .意味着里程、替代航线数目、替代航线平均价格、替代航线平均运量、运量可以解释价格70.2%的变化原因。可见,模型拟合优度较好,说明被解释变量可以被模型解释的部分较多。
3.3VIF值
从表中我们可以发现里程和替代航线平均里程的VIF值均小于10,因此该模型是可行的。
3.4P值
从表中我们可以得知每个回归系数的p值均远远小于0.01,即我们有充分的理由认为自变量与因变量之间的线性关系是显著的。
四、模型结果
4.1模型公式
从上表中可知,将替代航线平均价格、替代航线数目、替代航线平均运量、运量、里程作为自变量,价格最为因变量。其p值均小于0.01,且VIF均正常,故这五个变量均可以显示在模型中。
模型公式为:
预测价格 = 42.071 + 0.418*替代航线平均价格 - 9.472*替代航线数目
+ 0.126*替代航线平均运量 - 0.062*运量 + 0.37*里程。
4.2标准化系数
由表知,替代航线平均价格、替代航线数目、替代航线平均运量、运量、里程的标准化系数分别为:0.371、-0.088、0.105、-0.079、0.499。说明模型中里程对价格的影响最大,运量对价格的影响最小。
4.3残差图
下图为残差图,可以看出残差分布不具有明显规律性,说明回归结果就数据而言是较为可靠的。
五、结果解读和建议
5.1结果解读
由公式我们可以发现:
①在控制其他因素不变的情况下,替代航线数目越多,目标航线价格越低。这说明用户的选择多少会对票价水平产生负向影响。
②替代航线平均价格、替代航线平均运量代表该航线市场需求,这两项与目标航线价格成正相关可以说明需求决定价格这一基本经济学理论。
③从热图中我们可以发现,运量和替代航线平均运量间相关性较弱,说明每条航线都有自己的固定用户,且用户粘性较强。
④里程对价格的影响是最大的且是正相关,可以验证成本越高,价格相应增长的理论。
⑤运量对价格的影响是最小的且为负相关,说明在一定程度上运量越大,价格越低。
5.2建议
根据以上解读我提供以下几条建议:
①新开航线进入市场时,要了解其他替代航线的运营情况。可以先和他们保持一定的价格差,突出价格优势,吸引客源。待客源稳定后,再慢慢提价,和竞争航线缩小价差,甚至定价反超。
②航线收益管理人员应根据市场运力投放情况,及时调整定价策略,确保航线销售平稳。如果市场运力投放增加,供给可能大于需求,市场客源将出现不足,起舱定价就要放低预期,适当下调。当市场运力同比减少时,可能会出现供给小于需求的情况,则需提高售价,防止流量过快错失提高航班收益的机会。
六、模型综述
从上述分析可以看出,利用现有航线数据可以较为有效的对航班价格进行分析,从而比较科学的为未来开通航线进行定价处理。