Python 爬取任意指定城市的天气预报_python 百度天气 爬虫

文末有福利领取哦~

👉一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。img

👉二、Python必备开发工具

img
👉三、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
img

👉 四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(文末领读者福利)
img

👉五、Python练习题

检查学习结果。
img

👉六、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
img

img

👉因篇幅有限,仅展示部分资料,这份完整版的Python全套学习资料已经上传

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

    ......

天气网站不用登录就能获取内容,只需网站加上请求头即可。请求头都是非必需的,其作用是模拟浏览器,告诉网站发来的请求是正常合法的。


**请求头的获取:**


网上有很多方法,最简单的就在浏览器地址栏里键入“about:version”后回车。用户代理那一行就是所要的字符串,复制后写成字典格式:headers = {'User-Agent':“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36”}


**解析过程:**


解析网页有多种方法,目前我自己也不是很拿手就先不说了。我挑选用BeautifulSoup查找自己想要的网页标签,上一篇的爬虫中已有些摸索了,请见:


[Python “今日新闻”一个小程序,拿走就能用!\_汉阳Hann's Home-CSDN博客今天做了一个爬虫程序:“今日新闻”,拿走就能用!![](https://g.csdnimg.cn/static/logo/favicon32.ico)https://blog.csdn.net/boysoft2002/article/details/120549021?spm=1001.2014.3001.5501](https://blog.csdn.net/boysoft2002/article/details/120549021?spm=1001.2014.3001.5501 "Python “今日新闻”一个小程序,拿走就能用!_汉阳Hann's Home-CSDN博客")这次我要实战一个天气预报类的爬虫——  
  


### 爬取城市七日天气预报


先来爬取我们大苏州的,来瞅瞅大昆山的天气预报吧



from bs4 import BeautifulSoup as bs
from requests import get

Agent = ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36’

def weather(url):
res = []
try:
data = get(url,headers = {‘User-Agent’:Agent})
data.encoding=‘uft-8’
soup = bs(data.text,‘html.parser’)
city = soup.find(‘div’,class_=‘crumbs fl’).get_text().strip()
List = soup.select(“ul[class=‘t clearfix’] li”)
for li in List:
try:
data = li.select(‘h1’)[0].text
text = li.select(“p[class=‘wea’]”)[0].text
temp = li.findAll(‘span’)[0].text + ‘/’ + li.findAll(‘i’)[0].text
res.append((city.split()[-1],data,text,temp))
except Exception as err: print(err)
except Exception as err: print(err)
return res

url = ‘http://www.*******.com.cn/weather/’
ext = ‘.shtml’

city = {‘苏州’:‘101190401’,‘昆山’:‘101190404’,‘太仓’:‘101190408’,‘常熟’:‘101190402’,‘张家港’:‘101190403’}

#方法一:遍历已知的城市代码
suzhou = 101190401
for i in range(suzhou,suzhou+12):
print(i,‘\n’,weather(url+str(i)+ext),‘\n’)

print(‘=’*80)

#方法二:遍历事先做好的城市代码字典
for i in city:
print(i,‘\n’,weather(url+city[i]+ext),‘\n’)


返回的爬取结果: 



> 
> 101190401   
>   [('城区', '1日(今天)', '多云', '/22℃'), ('城区', '2日(明天)', '多云转晴', '33℃/22℃'), ('城区', '3日(后天)', '晴', '33℃/23℃'), ('城区', '4日(周一)', '晴', '34℃/25℃'), ('城区', '5日(周二)', '晴转多云', '34℃/24℃'), ('城区', '6日(周三)', '多云', '30℃/23℃'), ('城区', '7日(周四)', '多云转雷阵雨', '31℃/24℃')] 
> 
> 
> 101190402   
>   [('常熟', '1日(今天)', '多云', '/21℃'), ('常熟', '2日(明天)', '多云转晴', '32℃/23℃'), ('常熟', '3日(后天)', '晴', '33℃/24℃'), ('常熟', '4日(周一)', '晴', '33℃/23℃'), ('常熟', '5日(周二)', '晴转多云', '34℃/24℃'), ('常熟', '6日(周三)', '多云', '31℃/23℃'), ('常熟', '7日(周四)', '多云转雷阵雨', '31℃/24℃')] 
> 
> 
> 101190403   
>   [('张家港', '1日(今天)', '多云', '/20℃'), ('张家港', '2日(明天)', '多云转晴', '31℃/22℃'), ('张家港', '3日(后天)', '晴', '32℃/23℃'), ('张家港', '4日(周一)', '晴', '33℃/23℃'), ('张家港', '5日(周二)', '晴转多云', '34℃/24℃'), ('张家港', '6日(周三)', '多云', '29℃/23℃'), ('张家港', '7日(周四)', '多云转雷阵雨', '31℃/24℃')] 
> 
> 
> 101190404   
>   [('昆山', '1日(今天)', '多云', '/21℃'), ('昆山', '2日(明天)', '多云转晴', '32℃/23℃'), ('昆山', '3日(后天)', '晴', '33℃/24℃'), ('昆山', '4日(周一)', '晴', '33℃/24℃'), ('昆山', '5日(周二)', '晴转多云', '34℃/24℃'), ('昆山', '6日(周三)', '多云', '30℃/23℃'), ('昆山', '7日(周四)', '多云转雷阵雨', '31℃/24℃')] 
> 
> 
> 101190405   
>   [('吴中', '1日(今天)', '多云', '/22℃'), ('吴中', '2日(明天)', '多云转晴', '33℃/22℃'), ('吴中', '3日(后天)', '晴', '33℃/23℃'), ('吴中', '4日(周一)', '晴', '34℃/25℃'), ('吴中', '5日(周二)', '晴转多云', '34℃/24℃'), ('吴中', '6日(周三)', '多云', '30℃/23℃'), ('吴中', '7日(周四)', '多云转雷阵雨', '31℃/24℃')] 
> 
> 
> 101190406   
>   [('虎丘', '1日(今天)', '多云', '/22℃'), ('虎丘', '2日(明天)', '多云转晴', '33℃/22℃'), ('虎丘', '3日(后天)', '晴', '33℃/23℃'), ('虎丘', '4日(周一)', '晴', '34℃/25℃'), ('虎丘', '5日(周二)', '晴转多云', '34℃/24℃'), ('虎丘', '6日(周三)', '多云', '30℃/23℃'), ('虎丘', '7日(周四)', '多云转雷阵雨', '31℃/24℃')] 
> 
> 
> 101190407   
>   [('吴江', '1日(今天)', '多云', '/21℃'), ('吴江', '2日(明天)', '多云转晴', '32℃/22℃'), ('吴江', '3日(后天)', '晴', '33℃/23℃'), ('吴江', '4日(周一)', '晴', '33℃/22℃'), ('吴江', '5日(周二)', '晴转多云', '34℃/23℃'), ('吴江', '6日(周三)', '多云', '31℃/23℃'), ('吴江', '7日(周四)', '多云转雷阵雨', '31℃/24℃')] 
> 
> 
> 101190408   
>   [('太仓', '1日(今天)', '多云', '/20℃'), ('太仓', '2日(明天)', '多云转晴', '31℃/23℃'), ('太仓', '3日(后天)', '晴', '32℃/24℃'), ('太仓', '4日(周一)', '晴', '33℃/22℃'), ('太仓', '5日(周二)', '晴转多云', '34℃/24℃'), ('太仓', '6日(周三)', '多云', '30℃/22℃'), ('太仓', '7日(周四)', '多云转雷阵雨', '31℃/24℃')] 
> 
> 
> 101190409   
>   [('相城', '1日(今天)', '多云', '/22℃'), ('相城', '2日(明天)', '多云转晴', '33℃/22℃'), ('相城', '3日(后天)', '晴', '33℃/23℃'), ('相城', '4日(周一)', '晴', '34℃/25℃'), ('相城', '5日(周二)', '晴转多云', '34℃/24℃'), ('相城', '6日(周三)', '多云', '30℃/23℃'), ('相城', '7日(周四)', '多云转雷阵雨', '31℃/24℃')] 
> 
> 
> 101190410   
>   [('姑苏', '1日(今天)', '多云', '/22℃'), ('姑苏', '2日(明天)', '多云转晴', '33℃/22℃'), ('姑苏', '3日(后天)', '晴', '33℃/23℃'), ('姑苏', '4日(周一)', '晴', '34℃/25℃'), ('姑苏', '5日(周二)', '晴转多云', '34℃/24℃'), ('姑苏', '6日(周三)', '多云', '30℃/23℃'), ('姑苏', '7日(周四)', '多云转雷阵雨', '31℃/24℃')] 
> 
> 
> 'NoneType' object has no attribute 'get\_text'  
>  101190411   ###不存在的城市代码当然会报错###  
>   [] 
> 
> 
> 'NoneType' object has no attribute 'get\_text'  
>  101190412   
>   [] 
> 
> 
> ================================================================================  
>  苏州   
>   [('城区', '1日(今天)', '多云', '/22℃'), ('城区', '2日(明天)', '多云转晴', '33℃/22℃'), ('城区', '3日(后天)', '晴', '33℃/23℃'), ('城区', '4日(周一)', '晴', '34℃/25℃'), ('城区', '5日(周二)', '晴转多云', '34℃/24℃'), ('城区', '6日(周三)', '多云', '30℃/23℃'), ('城区', '7日(周四)', '多云转雷阵雨', '31℃/24℃')] 
> 
> 
> 昆山   
>   [('昆山', '1日(今天)', '多云', '/21℃'), ('昆山', '2日(明天)', '多云转晴', '32℃/23℃'), ('昆山', '3日(后天)', '晴', '33℃/24℃'), ('昆山', '4日(周一)', '晴', '33℃/24℃'), ('昆山', '5日(周二)', '晴转多云', '34℃/24℃'), ('昆山', '6日(周三)', '多云', '30℃/23℃'), ('昆山', '7日(周四)', '多云转雷阵雨', '31℃/24℃')] 
> 
> 
> 太仓   
>   [('太仓', '1日(今天)', '多云', '/20℃'), ('太仓', '2日(明天)', '多云转晴', '31℃/23℃'), ('太仓', '3日(后天)', '晴', '32℃/24℃'), ('太仓', '4日(周一)', '晴', '33℃/22℃'), ('太仓', '5日(周二)', '晴转多云', '34℃/24℃'), ('太仓', '6日(周三)', '多云', '30℃/22℃'), ('太仓', '7日(周四)', '多云转雷阵雨', '31℃/24℃')] 
> 
> 
> 常熟   
>   [('常熟', '1日(今天)', '多云', '/21℃'), ('常熟', '2日(明天)', '多云转晴', '32℃/23℃'), ('常熟', '3日(后天)', '晴', '33℃/24℃'), ('常熟', '4日(周一)', '晴', '33℃/23℃'), ('常熟', '5日(周二)', '晴转多云', '34℃/24℃'), ('常熟', '6日(周三)', '多云', '31℃/23℃'), ('常熟', '7日(周四)', '多云转雷阵雨', '31℃/24℃')] 
> 
> 
> 张家港   
>   [('张家港', '1日(今天)', '多云', '/20℃'), ('张家港', '2日(明天)', '多云转晴', '31℃/22℃'), ('张家港', '3日(后天)', '晴', '32℃/23℃'), ('张家港', '4日(周一)', '晴', '33℃/23℃'), ('张家港', '5日(周二)', '晴转多云', '34℃/24℃'), ('张家港', '6日(周三)', '多云', '29℃/23℃'), ('张家港', '7日(周四)', '多云转雷阵雨', '31℃/24℃')] 
> 
> 
> 


数据是有了,怎样更美化地输出需要另外的模块,先放一放。更为重要的问题是:怎样找到各城市的代码?比如,苏州对应的是 101190401 ,它之后的几个连续数字对应的是苏州辖内的各区和县级市。


网上很多文章都是爬取各省份的文字版网页( www.\*\*\*\*\*\*.com.cn/textFC/jiangsu.shtml 等)中的城市代码,这样还不是很方便。


经过摸查了很多个网页,终于发现了一个网页中可查到城市代码:



> 
> https://d4.weather.com.cn/geong/v1/api?params={%22method%22:%22stationinfo%22,%22lng%22:120.592412,%22lat%22:31.303564}  
>  注:%22就是双引号,被浏览器转码了
> 
> 
> 


其返回内容为:



> 
> 
> ```
> {"status":"success","errmsg":"","timestamp":1622032653,"location":{"lng":120.592412,"lat":31.303564},"data":{"station":{"areaid":"101190401","category":"city","namecn":"苏州","nameen":"suzhou","disticten":"suzhou","distictcn":"苏州","provinceen":"jiangsu","provincecn":"江苏"}}}
> ```
> 
> 


参数字典中,lng:120.592412,lat:31.303564 两个参数正是苏州的经纬度。  
  


### 解决的关键


先要查询到“任意指定”的城市或地址的经纬度,然后交由上述地址求得其中的 "areaid",最后就能够从网页 www.\*\*\*.com.cn/areaid+'.shtml'中爬取天气信息。


问题关键在于**城市经纬度**,这个可以提交给百度地图的免费api接口来获得:



> 
> http://api.map.baidu.com/lbsapi/cloud/geocoding-api.htm
> 
> 
> 



![](https://img-blog.csdnimg.cn/d9c7f8ac5b4d48f397b93c2f7f7bb4ed.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBASGFubiBZYW5n,size_20,color_FFFFFF,t_70,g_se,x_16)

 api免费,但要注册才能有key,就看这个公开的好不好使了 
 


## 任意指定城市


来尝试一把,浏览器地址输入以下地址获取城市的经纬度:



> 
>  http://api.map.baidu.com/geocoder?address=**南京市江宁区**&output=json&key=37492c0ee6f924cb5e934fa08c6b1676
> 
> 
> 


bingo! 百度地图这个公开的key居然还能用,返回的数据:



> 
> 
> ```
> {"status":"success","errmsg":"","timestamp":1622032653,"location":{"lng":118.846567,"lat":31.958527},"data":{"station":{"areaid":"101190104","category":"city",**"namecn":"江宁",** "nameen":"jiangning","disticten":"nanjing",**"distictcn":"南京",** "provinceen":"jiangsu","provincecn":"江苏"}}}
> ```
> 
> 


如上红色标示的,正是江宁区的对应id: www.\*\*\*.com.cn/weather/101190104.shtml




现在能在网上找到很多很多的学习资源,有免费的也有收费的,当我拿到1套比较全的学习资源之前,我并没着急去看第1节,我而是去审视这套资源是否值得学习,有时候也会去问一些学长的意见,如果可以之后,我会对这套学习资源做1个学习计划,我的学习计划主要包括规划图和学习进度表。



分享给大家这份我薅到的免费视频资料,质量还不错,大家可以跟着学习

![](https://img-blog.csdnimg.cn/img_convert/21b2604bd33c4b6713f686ddd3fe5aff.png)



**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

**[需要这份系统化学习资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618317507)**

**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值