业务数据分析
这篇博客用来记录自己在携程任职数据分析师期间涉及的一些业务数据分析知识,分别是碰到不同业务需求时自己的分析思路以及预期结果,业务决策等,希望以此方式来进行归纳总结,提升自己。
提升酒店订单量
- 业务需求:挖掘与酒店订单量相关变量,探究不同业务场景酒店订单转化率,并制定相应业务决策。
- 解决思路:获取用户订单数据,构建时间序列维度酒店订单量与订单其余指标的非线性模型,以此找出重要指标。基于此分析在不同营销场景下,指标的表现。
一般情况下,可以通过线性回归来找出特征重要性。但大多数情形具有高度多重共线性,且不服从线性关系,因此传统线性回归无法完成任务,需要借助非线性模型或时间序列模型的帮助。而在此之前,需要去除共线性。通常可以根据业务经验排除一些具有明显相关性的变量,再根据相关系数剔除一些变量。(此处也许可以考虑使用ridge regression或lasso regression) 这里有两个思路:
- 利用多元时间序列模型,如VAR,根据脉冲响应分析,方差分解,格兰杰因果检验可确定各变量之间的影响,此类方法解释性更强,前提需验证协整关系。
- 利用树类model,如xgboost,gbdt,random forest等可计算特征重要性(但可解释性较差)。这里需要利用交叉验证对各模型进行调参,通常参数接近真实值时,feature importance不会差距太大,若不确定可调试多组参数,计算所有参数下的importance组合来确定