文章目录
1 简介
Hi,大家好,这里是丹成学长,今天向大家介绍一个大数据分享项目
基于大数据的全国热门旅游景点数据分析与可视化
大家可用于 课程设计 或 毕业设计
🧿 选题指导, 项目分享:见文末
2 数据分析
本项目通过去全国各地区景点门票的售卖情况,简单分析一下全国比较热门的景点分布和国民出游情况,看看哪些景点比较受欢迎。
2.1 数据总览
部分代码省略
df = pd.read_excel('/home/mw/input/202108039010/旅游景点.xlsx')
df.head()
2.2 数据预处理
主要是去除异常数据,与乱码数据,以及不合理数据,本节略,有需要的同学联系学长。
2.3 数据可视化
销量前20热门景点数据
假期出行数据全国地图分布
华东、华南、华中等地区属于国民出游热点地区,尤其是北京、上海、江苏、广东、四川、陕西等地区出行比较密集。
各省市4A-5A景区数量柱状图
各省市4A-5A景区数量玫瑰图
各省市4A-5A景区数量阴影散点图
门票价格区间占比玫瑰图
# 门票价格占比
price_level = [0, 50, 100, 150, 200, 250, 300, 350, 400, 500]
label_level = ['0-50', '50-100', '100-150', '150-200', '200-250', '250-300', '300-350', '350-400', '400-500']
jzmj_cut = pd.cut(df['价格'], price_level, labels=label_level)
df_price = jzmj_cut.value_counts()
df_price
[output:]
0-50 888
50-100 725
100-150 278
150-200 184
200-250 62
250-300 59
300-350 20
350-400 19
400-500 13
Name: 价格, dtype: int64