思路:
1.寻找入口
2.寻找数据所在url
3.获取源码,提取数据
4.数据保存输出
1.入口
入口
通过40天预报可以追溯2016年和2017年全年的天气数据。
2.构造url
分析可知40天的天气数据是通过js异步加载,每个月份对应一个url
url
url由年份和月份组成,我们可以根据这个规律构造url,循环抓取数据
month = ['01','02','03','04','05','06','07','08','09','10','11','12']
for i in month:
url = 'http://d1.weather.com.cn/calendar_new/'+str(year)+'/101180101_'+str(year)+str(i)+'.html?_=1496558858156'
3.数据提取
请求url获取的数据是json格式,稍加处理转换为列表,方便提取所需数据。
数据
html