本项目为前几天收费帮学妹做的一个项目,Java EE JSP项目,在工作环境中基本使用不到,但是很多学校把这个当作编程入门的项目来做,故分享出本项目供初学者参考。
一、项目介绍
python爬虫去哪网
环境python3.8
爬虫:requests,BeautifulSoup,time,xlwt
数据分析:pandas,numpy,matplotlib,pyecharts
二、主要功能
①数据处理
1.将地址(districts)前面的地址:和后面的地图去掉,用切片索引值获取相应的值
2.将districts保留到省份,例如:四川·成都·国色天乡,用split,方法以·分割,取省份重新赋值
3.将星级(star)前面的景区去掉
4.将score中的热度去掉,将数据类型装换为float,并保留一位小数,用round保留一位小数,用astype,进行装换
5.将qunarPrice中的价格前的¥和起去掉,并装换为float型
6.将数据先按照月销量排再按照评分排,利用sort_values,进行排序
②将数据进行可视化分析
1.热门景区top500价格区间图(柱状图),先用min和max方法获取最大值和最小值,再用cut方法进行区间划分,用value_counts统计各个区间价格的数量
2.将5A景区,4A景区,3A景区,无的个数绘制成饼状,先用value_counts统计,最后进行绘图
3.海南和云南月销量top10价格对比折线图,将海南和云南数据赋给两个不同的对象hainan,yunnan,进行数据提取和绘制图像
4.价格和销量,地区(北京,黑龙江,广州)的关系(散点图),获取北京,黑龙江,广州的价格,销量
5.景点地区分布图(以地图的形式呈现),pyecharts中的Map对中国地图是以省份名进行匹配的,先将省份以列表包围元组的形式输出,利用Map进行省份景点数量可视化,最后以html的形式输出
6.获取各个地区景区的价格平均值,通过groupby进行地区分类,通过key值获取地区名,再根据通过mean获取不同地区景区价格的平均值