帆软所有销量为0的显示为空值_爆品秘籍?—线上三亚跟团游销量影响因素分析...

如何在一次又一次的时下热潮中,让自己的旅行产品卖成爆品,正是旅行社所密切关心的。我们以三亚跟团游在线旅游产品为例,对销量的各个可能影响因素进行描述建模,并对消费者评论内容进行词频统计、利用LDA模型进行主题挖掘,将文本挖掘得到的主题出现概率作为衍生自变量加入到后续回归模型中,最终以产品是否有历史销量和月平均销量分布作为因变量建立模型,为旅行社探索挖掘相关信息,提供修改旅行产品的建议。

3a899000185f2f3fd160f97322269856.png
5c2fab32d07f86295a969c120a9b1e78.png

背景介绍

沙滩、椰风、海韵,三亚这座城市拥有60%的森林覆盖率,209.1公里的海岸线,拥有19处优质海湾。近十年,三亚已建成23处别具特色的旅游景区,例如:三亚湾椰梦长廊、西岛海上游乐世界、“蜈支洲岛”度假中心、天涯海角风景区等。三亚现有近200家旅游饭店,四、五星级酒店近30家。2018年,三亚市接待游客总人数2242.57万人次,比2017年增长11.3%。全年旅游总收入514.73亿元。全市共有A级及以上景区14处,其中,5A景区3处,4A景区5处。三亚已经形成完整、极具吸引力的旅游产品体系,这就是本文之所以选取三亚这座城市作为研究目标的原因。

845019855a577925d5d4182820fe5542.png

纵观线上旅游市场,OTA市场交易规模平稳增长,在线产品预定也呈多元化发展。在线旅游业的整体格局已经趋于稳定,随着旅行细分市场运营发展日益精细化,在线旅游市场份额日趋稳定,突围壁垒增高,窗口逐渐缩小,市场集中度进一步提升。2018年在线旅游交易额达到1.2万亿。

ea80fd9b784d6d120cb3f0e723595907.png

据某网站发布的报告显示,有超过70%的游客在外出旅游时选择了跟团游产品,以家庭为单位的私家团人数更是暴增105%。跟团游产品仍然火爆,在线旅游蓬勃的发展以及市场交易额也不断扩大,那么如此广阔的市场发展前景就必然成为商家的必争之地。这么多线上旅行社如何在竞争激烈的市场上,拔得头筹,将自己的产品卖成爆品?

小编决定从“获客困难”这一问题为切入口,基于线上三亚跟团游产品销量的影响因素分析,为旅行社获得更多销量及更高利润,并从消费者评论角度直击旅行社痛点。

a2ac76514d8595cd6c8d0579e4a7528c.png
3f03ab399790b12c8b3e9b2f0b36a03c.png

数据描述

本文所使用的数据抓取自某大型在线旅游网,选择所有热门城市为出发地逐个爬取,并去重,留下共1813条样本,每条数据代表一个三亚跟团游产品的相关信息。其中有销量信息的样本共610条,有评论信息的共455条。

89c838d38a313a6256c90f0cf82059bb.png
132005badb1f517e519bfae446bbcac1.png
5c2fab32d07f86295a969c120a9b1e78.png

描述分析

我们发现所爬取1813条数据中,有销量信息的跟团游产品经610个,故本次研究将因变量一分为二,首先对产品是否有历史销量进行影响因素分析。再对有销量的产品进行销量标准化处理,分析其影响因素。

01 因变量:线上三亚跟团游产品是否有销量

该网上所有三亚跟团游产品有历史销量的仅由610个,占比33.6%。

8f4a378e43243832f5a0fc195c596e90.png

自变量描述,以是否有购物、产品价格是否可见行程地图为例。分析如下:

我们发现无购物的跟团游产品获客能力比有购物的产品强,有销量的产品总体价格低于无销量的产品。

可见行程地图的产品获客能力明显强于不可见行程地图的产品,行程地图的展示能帮助消费者直观了解整体行程,也能使消费者更愿意长时间停留在该产品页面上,提高购买概率。

cad30d8264d1916efd24ef6d53ad24c9.png

02 因变量:三亚跟团游产品月平均销量

我们选取所有有历史销量的产品,利用产品评论最早日期代替上线日期,进行标准化处理,排除上线时长对销量的影响,得到我们所关心的因变量——三亚跟团游产品月平均销量。做对数处理,绘制如下直方图,整体呈右偏分布,大部分产品销量小于10(人/月)。销量最大值高达700.87(人/月),来自该网旅游自营的海南三亚5钻5日4晚跟团游产品。

a53c9466c8d48d5535434633d5ac567a.png

自变量描述,以行程天数、总共景点个数与产品好评率为例。分析如下:

行程天数在3天到9天的跟团游产品最受消费者欢迎,旅行社在制定产品的时候应该更多的制定行程在这一范围之间的产品。行程中景点个数在3至9个的产品销量离散值较多,可见三亚跟团游爆品所安排的旅行景点总数集中在3至9个范围内。旅行社在安排跟团游景点个数的时候需要适中,过多景点个数会导致成本增加。

c0239822139085cc69d4bd44d7b9fb6e.png

好评率是使用过该产品的消费者所带来的量化反馈,反映大众对产品的看法。我们由图可知,好评率在96%~99%的产品总体销量明显高于其他范围的产品,三亚跟团游的爆品也出现在这个好评率范围内。

c22ed8a5d5ace47a0f739a7101b8d3a3.png

有趣的是,存在一部分满意度高达100%但销量却不高的产品,可能原因是这些产品是该网站上较新的产品,也可能因为广告宣传力度不够大,导致部分质量高的产品没被大众所发现。

5c2fab32d07f86295a969c120a9b1e78.png

评论内容总体描述

首先我们将该网上所有跟团游的产品评论信息全部爬取出来,共455个商品有评论内容。经过去停用词、新增语料库、分词,再令评分大于3分的划分为好评,其余为差评,各选取出现频率top140的词绘制如下词云图。好评中出现频率最多的词有:酒店、服务、幽默、热情、景点等等。而差评中出现最多的词是:酒店、购物、自费、客服、时间、项目等。

d7301614b488936086f58a7ed33e6a34.png
3f03ab399790b12c8b3e9b2f0b36a03c.png

基于LDA对评论内容主题模型建立

我们将该455个产品的所有评论内容进行预处理,利用LDA模型进行主题挖掘产品特征。打印了前六个主题模型,并提取顶级词汇我们对LDA主题模型进行可视化,结果是一个动态交互的网页,下图仅展示主题4,由下图右方,可知大体与导游因素有关。

c48fa26637a460c29907fdbf84c86757.png

同样地,对其它主题同样进行可视化,根据每个主题给出的前10个顶级词汇,下表展示各主题前10个顶级词汇及其归纳的类别。评论主题一定程度上反映消费者的关注点与需求。我们为每个产品计算其评论各个主题特征出现的概率,即各个产品在各个类别里的打分,并运用到后续回归模型之中,观察其对销量的影响是否显著。

bab9ec633b49d697bd01d368ffc9e856.png
5c2fab32d07f86295a969c120a9b1e78.png

回归模型建立

01 逻辑回归(是否有历史销量)

1.1 模型建立与解读

首先我们对该网网上所有三亚跟团游产品,以是否有历史销量为因变量建立初始逻辑回归模型。基于BIC准则,利用向后逐步回归,进行变量选择。得到如下所示最终回归模型。

c7d56f71a53c6010b09866c0a63662b1.png

从估计的结果来看,在显著性水平为0.05的情况下,有以下三点值得关注:

1.该网自营的产品相比于非该网自营的更容易受到消费者“光顾”;

2.网页上可见行程地图的产品比不可见地图的产品更容易卖得出,这可以结合网页上显示自由活动次数这一因素,我们发现只要显示自由活动次数的产品相较于无信息的产品获客能力更强,可见线上旅行产品的“门面”何其重要!

3.有购物的跟团游产品相较于无购物的产品,更不容易被卖出。

1.2 模型的评价

我们建立混淆矩阵,本案例设置的阙值是样本的正负比例(有销量产品占总产品的比例)。根据混淆矩阵我们可知,模型的错分率为44.60%,偏高;TPR(True Positive Rate)为70.05%,预测1正确的能力较好;FPR(False Positive Rate)为31.67%,错将1预测为0的概率降低。AUC=0.77。

db75d6c1e86fe45ee1b56ef8fab566d4.png

1.3.模型运用

c00850242aec7fec593544f84b2d976a.png

02

线性回归(月平均销量)

2.1 模型的建立与解读

该部分,我们选择月平均销量作为因变量,建立初始线性回归模型,利用AIC准则,向后逐步回归进行变量选择。并计算了cook距离,去除强影响点,最终选择对数线性回归模型,得到下表。

F检验的p值小于显著性水平(0.05),因此模型整体是显著的,至少有一个自变量对于产品月销量有显著影响。本案例的R方为0.633,自变量能够解释因变量(跟团游产品月平均销量)变异的63.3%。

cc2c527cb3d526f8c65ac5444fbe7b36.png

具体解读如下:

(1)产品自身因素:当控制其他因素不变的时候,该网自营的跟团游产品月平均销量比非该网自营的平均高出80.01%,产品是否安排购物与产品价格仍然是一个很重要的因素。还值得关注的是跟团游安排的行程天数,3至9天的产品比3天及以内的产品的月平均销量高出36.58%,太短的行程并不适合大部分人。

(2)产品评价因素:在控制其他因素不变的情况下,好评率提高1%,月平均销量就会增高2.28%。我们还将挖掘出来的评论内容主题在各个产品评论里出现概率放入模型中,发现吃住因素、导游因素和行程路线的得分是影响产品销量较强的因素。

2.2 模型评价

下方输出的一组诊断图,从残差图能够看出,异方差的现象并不明显。QQ图告诉我们,正态性得到了很好的满足。而右下角的Cook距离图显示,样本已无强影响点。

f13cb1d516043509c945c41159f46aac.png

2.3 模型应用

如下图回归系数可视化展示我们发现产品好评率所有影响因素中影响力最强的,好评率高说明消费者对该产品的满意度高,这样的产品更容易成为“爆品”。

62ffe2d7d28c2918d29269fd7213e608.png

再解释产品自身因素的影响,从我们的模型中可以看到有三个因素与平均月销量的负相关性很明显,分别是有购物(基准组:无购物)、价格和自由活动次数

评论内容所挖掘的主题对于月平均销量的解释:六个主题中有五个主题对销量的解释较为显著。其中,导游因素的得分与行程线路的得分对平均月销量的影响较大,这说明,消费者在购买并完成该产品旅程之后,对导游与整体行程安排的印象最深。除此之外,吃住因素的得分对销量也具有较大影响,而吃住因素的得分自然取决于旅行社设计跟团游产品的时候是否妥当。

不过,同时期的数据进行建模,结果只能用于解释。但对于平台方而言,能够收集到更多的产品信息,可以使用销量前期对应的评论数等其他信息进行建模,从而可以进一步用于销量预测等工作。

3f03ab399790b12c8b3e9b2f0b36a03c.png

总结与建议

下方是根据全文分析结果提出对旅行社的建议

0f3568c1815d1104df06d66ca64e44a6.png
ecba30d02fbc0c691ac29eef4d2f31de.png
8d5c6c7bdee5b6e713b73a8d52190318.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值