SQL数据分析--旅游数据分析可视化实操。根据现有数据分析,具体操作情况如下:
①用户个人信息,数据共有4列,userid:用户ID; gender性别;province省份;age年龄段
测试集,10076条+训练集,40307条数据
②用户行为信息:数据共有3列,userid用户ID;actionType行为类型;actionTime发生时间(行为类型一共有9个,其中1是唤醒app;2~4是浏览产品,无先后关系;5~9则是有先后关系的,从填写表单到提交订单再到最后支付。)
测试集,331204条+训练集,1048575条数据
③用户历史订单数据:数据共有7列,userid用户ID;orderid订单id;orderTime订单时间;orderType订单类型;(其中1表示购买了精品旅游服务,0表示普通旅游服务)city旅游城市;country国家;continent大陆
测试集,5059条+训练集,20653条数据
④待预测订单的数据,数据共有2列 userid用户id;orderType订单类型
测试集,10076条(无有效信息)+训练集,40307条数据
⑤评论数据数据共有5列,userid用户id;orderid订单id;rating评分;tags标签;commentsKeyWords评论内容。
测试集,2474条+训练集,9863条
互联网在线旅游--APP分析指标
营销推广指标:APP活跃用户数、各渠道下载量、注册用户数、分渠道注册转化、分渠道复购率(活动页面浏览数、分渠道浏览贡献)
运营指标:获取新客成本,活跃用户数、新增注册用户占比、各渠道用户留存,购买VIP服务占比,用户满意度
产品指标:活跃用户数、平均APP单次使用时长、平均APP日使用时长、页面访问时长、整体跳出率、注册转化率、VIP会员转化率。
三:数据清洗(此步骤在EXCEL数据分析时已处理,可见日求三餐:精品旅行服务数据分析--EXCEL初步分析)
1.列名重命名(把列名称更改为中英文便于理解)
2.删除重复值(由于是通过订单查询最受注册用户欢迎的旅游国家以及城市TPO10,以订单ID识别重复信息,查询无重复值)
3.缺失值处理
①.用户个人信息中用户ID,可以得知40307条数 ,性别:15706条缺失:24547条;省份:36412条,缺失:38951条;年龄段:4742条,缺失:35565条【由于年龄段数据缺失比重为88.23%】由此年龄段数据无法真实有效的体现,不可做重要分析项。(其中省份中确实部分填充为“未知”)
②.用户历史订单数据订单ID:20653条数据,其他各项均完整。
4.时间提取
①由于历史订单中订单时间是时间戳形式,无法具体识别订单时间,通过公式把时间戳更换成常规时间
②辅助列提取数据,为了便于统计不同年份最受欢迎的城市,需要把订单年份提取出来。
函数公式:=text(a2,"YYYY")
五:数据导入MYSQL
1、下载MySQL服务端和客户端。
服务端:猴子:超级详细的mysql安装指南
客户端:猴子:Mysql客户端:Navicat安装教程及问题汇总
2、导入下载数据表:(由于此次是初步分析,暂时只导入训练集数据)
七:具体分析情况
问题1.1注册用户的情况,共计多少注册用户?
问题1.2注册用户城市分布情况?
问题1.3消费用户占比(注册用户数量40307是由问题1.1获得)
问题1.4主流消费用户主要来自哪些省份?
问题2.1目前最受注册用户喜欢的旅游国家?
问题2.2最受欢迎的旅游城市2016年TPO10
问题2.3最受欢迎的旅游城市2017年TPO10
问题2.4最受欢迎的旅游城市TPO10
问题3.1消费用户的满意度情况
问题3.2消费用户的不满意度情况分析
通过上面的分析,我们可以得到的以下分析结论有:
- 注册用户共计40307个,其中主流消费用户占比26.39%,且注册用户和主流消费用户均来自一线城市和江浙地区(上海、北京、广东、江苏、浙江等)
- 最受欢迎的TOP10的国家分别是:日本、美国、澳大利亚、新加坡、泰国。
- 最受欢迎的TOP10的城市。分别是新加坡、东京、纽约、台北、吉隆坡、悉尼、香港、大阪、墨尔本、曼谷。不同的年份最受欢迎的旅游城市大致相同,但是也有不同。
- 其中2016年最受欢迎的TOP10的城市分别是新加坡、东京、悉尼、香港、曼谷、大阪、纽约、台北、普吉岛、墨尔本。2017年最受欢迎的TOP10的城市分别是东京、新加坡、吉隆坡、纽约、台北、香港、悉尼、大阪、墨尔本、曼谷。
- 消费用户的满意度较高,近95.78%的用户是非常满意的,但是也有一部分消费用户评分过低但是评论内容是满意,可能是误评,其他比较引起客户不满的问题是“司导态度差”“临时换司导”“车辆和订单显示不符”“临时换司导|车辆和订单显示不符”“不爱讲话”等