python爬虫+数据可视化项目(一)
爬取目标:中国天气网(起始url:http://www.weather.com.cn/textfc/hb.shtml#)
爬取内容:全国实时温度最低的十个城市气温排行榜
使用工具:requests库实现发送请求、获取响应。
beautifulsoup实现数据解析、提取和清洗
pyechart模块实现数据可视化
爬取结果:柱状图可视化展示:
直接放代码(详细说明在注释里,欢迎同行相互交流、学习~):
1 import requests
2 from bs4 import beautifulsoup
3 from pyecharts import bar
4
5 all_data = []
6 def send_parse_urls(start_urls):
7 headers = {
8 "user-agent": "mozilla/5.0 (compatible; yandexbot/3.0; +http://yandex.com/bots)"
9 }
10 for start_url in start_urls:
11 response = requests.get(start_url,headers=headers)
12 # 编码问题的解决
13 response = response.text.encode("raw_unicode_escape").decode("ut