前言
上篇文章给大家分享了,Python旅游景点的详细数据
现在来分享各个城市的景点数据,并来做一个数据可视化图
一、模块使用:
爬虫部分:
- requests
- parsel
- csv
数据分析部分:
- pandas
- pyecharts
二、开发环境:
- python 3.6
- pycharm
三、流程思路:
-
确定目标需求
python采集旅游景点数据 / 去哪儿~ -
发送请求
-
获取数据
-
解析数据
-
保存数据
四、代码展示
完整代码点击文末名片领取或者看代码中 +v
采集数据
导入模块
import requests
import parsel
import csv
import time
写入表格
f = open('张家界景点.csv', mode='a', encoding='utf-8-sig', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['景区', '星级', '地区', '热度', '销量', '地址',
'价格', '简介', '详情页'])
csv_writer.writeheader()
多页采集
for page in range(1, 12):
print(f'===============================正在爬取第{
page}页数据内容=======================================')
time.sleep(2)
请求链接
url = f'https://*****.com/ticket/list_%E5%BC%A0%E5%AE%B6%E7%95%8C.html?from=mps_search_suggest_h&keyword=%E5%BC%A0%E5%AE%B6%E7%95%8C&page={page}'
请求头:把python代码伪装成浏览器 给服务器发送请求
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
获取网页文本数据 response.text
# print(response.text)
解析数据
css选择器 根据标签提取数据内容
第一次提取 所以景区标签内容 返回的页是一个对象 列表
id选择器 直接可以使用# 开头