Python数据分析 I 全国旅游景点分析案例，哪里好玩一目了然

最新推荐文章于 2024-05-26 12:49:04 发布

m0_61331237

最新推荐文章于 2024-05-26 12:49:04 发布

阅读量363

点赞数 3

分类专栏：程序员文章标签： python 数据分析开发语言

本文链接：https://blog.csdn.net/m0_61331237/article/details/138310679

版权

程序员专栏收录该内容

257 篇文章 0 订阅

订阅专栏

本文介绍了对全国旅游景点数据的清洗、整合和分析过程，包括删除重复和无评分项，计算景区好评率，按销量和价格划分景点类型，并结合酒店数据进行价值评估模型的初步构建。

摘要由CSDN通过智能技术生成

再将全部数据组合在一起

China_scenic = pd.concat([上海, 云南, 内蒙古, 北京, 台湾, 吉林, 四川, 天津,

宁夏, 安徽, 山东, 山西, 广东, 广西, 新疆, 江苏,

河北, 河南, 浙江, 海南, 湖北, 湖南, 澳门, 甘肃,

福建, 西藏, 贵州, 辽宁, 重庆, 陕西, 青海, 香港, 黑龙江], sort=True,

ignore_index=True).reset_index().drop(columns=‘index’)

在这里插入图片描述

接下来删除那些重复和没有评分的地点。

删除重复地点

China_scenic = China_scenic.drop_duplicates(subset=‘spot-info’)

删除没有评分的地点

China_scenic = China_scenic[China_scenic[‘spot-comment’].notnull()]

再将评分转换为好评率，将没有景区等级的景点标为无等级

def grade_change(i):

i = i.replace(‘分’, ‘’)

return float(i) / 5

将评分转换为好评率

China_scenic[‘spot-comment’] = China_scenic[‘spot-comment’].apply(grade_change)

将没有景区等级的景区标为无等级

China_scenic[‘spot-info2’] = China_scenic[‘spot-info2’].fillna(‘无等级’)

在这里插入图片描述

由于有许多景点是不需要购票进入的，这里再将所有景点分成两部分以便之后的操作

选取免费景点

China_scenic_free = China_scenic[China_scenic[‘价格’].isna()].reset_index().drop(columns=‘index’)

选取收费景点

China_scenic_charge = China_scenic[China_scenic[‘价格’].notnull()].reset_index().drop(columns=‘index’)

接下来把消费景点的销售量转换为具体数值，把免费景点的销售量和价格这两列删除

def sold_change(i):

if ‘万+’ in i:

i = i.replace(‘.’, ‘’)

i = i.replace(‘万+’, ‘000’)

return int(i)

else:

return int(i)

将已售数据转换为整形

China_scenic_charge[‘已售’] = China_scenic_charge[‘已售’].apply(sold_change)

删除两列

China_scenic_free = China_scenic_free.drop(columns=‘已售’).drop(columns=‘价格’)

酒店数据

酒店数据，这里仅仅爬取了我选取的五个城市的酒店数据（为了机器学习的例子仅选了五个城市）

在这里插入图片描述

接下来读取数据，并且把价格转换为具体数值，把销量转换为具体数值（对每个城市的操作都相同，只展示一个城市的操作）

def price_change(i):

i = i.replace(‘起’, ‘’)

return int(i)

def sold_change(i):

if ‘+消费’ in i:

i = i.replace(‘+消费’, ‘’)

return int(i)

else:

i = i.replace(‘消费’, ‘’)

return int(i)

Zhangjiajie_Hotel = pd.read_csv(‘张家界酒店.csv’,

engine=‘python’,

usecols=[‘标题’, ‘poi-address’, ‘poi-type’, ‘poi-price’, ‘poi-buy-num’, ‘service-icons1’,‘service-icons3’, ‘service-icons5’]).dropna()

Zhangjiajie_Hotel[‘地址’] = ‘张家界’

Zhangjiajie_Hotel[‘poi-price’] = Changsha_Hotel[‘poi-price’].apply(price_change)

Zhangjiajie_Hotel[‘poi-buy-num’] = Changsha_Hotel[‘poi-buy-num’].apply(sold_change)

数据分析

景点数据

景区等级评价

scenic_level_comment = China_scenic.groupby(‘spot-info2’).mean().sort_values(‘spot-comment’, ascending=False)

# 收费景点

销量前五十的景点

China_scenic_50 = China_scenic_charge.sort_values(‘已售’, ascending=False).head(50).reset_index().drop(columns=‘index’)

平均门票最贵的省份

China_scenic_exp = China_scenic_charge.groupby(‘省份’).mean().sort_values(‘价格’, ascending=False)[‘价格’]

最受欢迎的省份

Hot_province = China_scenic_charge.groupby(‘省份’).sum().sort_values(‘已售’, ascending=False)[‘已售’]

最受欢迎的付费景点类型

Hot_kind_charge = China_scenic_charge.groupby(‘spot-label1’).mean().sort_values(‘已售’, ascending=False).head(10)[‘已售’]

# 免费景点

China_scenic_free = China_scenic_free.drop(columns=‘已售’).drop(columns=‘价格’)

评分最高的五十个免费景点

free_scenic_50 = China_scenic_free.sort_values(‘spot-comment’, ascending=False).head(50)

评分最高的的免费景点类型

Hot_kind_free = China_scenic_free.groupby([‘spot-label1’]).mean().sort_values(‘spot-comment’, ascending=False).head(15)

再将这些分析出的数据用.to_csv()导出，用PPT画图（自己的数据可视化做得很丑。。。。）

。。。）

在这里插入图片描述

酒店数据

将五个城市酒店数据组合，再进行分析如下

All_Hotel = pd.concat([Changsha_Hotel,

Zhangjiajie_Hotel,

Hangzhou_Hotel,

Suzhou_Hotel,

Changzhou_Hotel],

axis=0, sort=False).dropna().reset_index().drop(columns=‘index’)

kind_price = All_Hotel.groupby([‘地址’, ‘poi-type’]).mean()[‘poi-price’]

把‘kind_price’导出画图

在这里插入图片描述

机器学习

假设去某个景点旅游，需要考虑出行方式、酒店住宿、门票价格等因素，由此可以大概计算出一个数值来表示该趟旅游“值不值 ”（爬取到的数据中，关于免费景点只有评分一条可以评定其价值，不太具有真实意义，所以不取免费景点）

从景点数据随机选取一个，酒店数据随机选取一个，出行方式随机选取一种。（由此来组合成一行，模拟成一个人选择某种方式去了某地游玩了某个景点又选择了某个酒店）

由于数据的不完整，所以这里主要从“钱花得最少，去的景点评分最高”这样的角度来判断“值不值”。

“值不值”的恒定标准为:

在这里插入图片描述

代数意义

在这里插入图片描述

PS：这里本应该每个值附上自己的权重，由于时间关系，我仅将他们（0,1）规格化了，这样就是1:1:1:1的关系，以后有时间在调整其权重问题。

再由Score值来分类：

在这里插入图片描述

代码实现

先从全国景点数据中，找到五个例子城市的景点数据。

(方法五个都一样，这里只展示以张家界为例）

def find_zhangjiajie(i):

if ‘张家界’ in i:

return True

else:

return False

zhangjiajie_scenic = China_scenic_charge[China_scenic_charge[‘spot-info1’].apply(find_zhangjiajie)].reset_index().drop(columns=‘index’)

导出后画图如下

在这里插入图片描述

接下来是获取出行数据，由于机票价格波动太大，并且某些城市还没有普火，这里主要是取平均值，zhangjiajie_traffic数据大概这个样子

在这里插入图片描述

现在，对于张家界的景点、出行、酒店数据已经准备完毕

左右拼接在一起，创建随机数据集 zhangjiajie_travel：

def price_02(i):

i = (i - zhangjiajie_travel[‘价格’].min()) / (zhangjiajie_travel[‘价格’].max() - zhangjiajie_travel[‘价格’].min())

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全，刚开始学习的时候你可以只看视频或者听某个人讲课，但等你学完之后，你觉得你掌握了，这时候建议还是得去看一下书籍，看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

五、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

六、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

m0_61331237

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录