最后
不知道你们用的什么环境,我一般都是用的Python3.6环境和pycharm解释器,没有软件,或者没有资料,没人解答问题,都可以免费领取(包括今天的代码),过几天我还会做个视频教程出来,有需要也可以领取~
给大家准备的学习资料包括但不限于:
Python 环境、pycharm编辑器/永久激活/翻译插件
python 零基础视频教程
Python 界面开发实战教程
Python 爬虫实战教程
Python 数据分析实战教程
python 游戏开发实战教程
Python 电子书100本
Python 学习路线规划
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
:rtype: requests.Response
**常见的爬虫类:**
class Spider():
def __init__(self):
self.url = 'http://www.****.com.cn'
self.headers = {'User-Agent':'Mozilla/5.0 ***********'}
self.auth = ('id','passward')
self.proxies = { 'http':'http://IP:端口号', 'https':'https://IP:端口号' }
def getHtml(self):
html = requests.get(url=self.url,
proxies=self.proxies,
auth=self.auth,
headers=self.headers
)
return html.text
def parseHtml(self):
text = self.getHtml()
#根据需要,用各种方法来解析网页的标签获取想要的内容#
......
天气网站不用登录就能获取内容,只需网站加上请求头即可。请求头都是非必需的,其作用是模拟浏览器,告诉网站发来的请求是正常合法的。
**请求头的获取:**
网上有很多方法,最简单的就在浏览器地址栏里键入“about:version”后回车。用户代理那一行就是所要的字符串,复制后写成字典格式:headers = {'User-Agent':“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36”}
**解析过程:**
解析网页有多种方法,目前我自己也不是很拿手就先不说了。我挑选用BeautifulSoup查找自己想要的网页标签,上一篇的爬虫中已有些摸索了,请见:
[Python “今日新闻”一个小程序,拿走就能用!\_汉阳Hann's Home-CSDN博客今天做了一个爬虫程序:“今日新闻”,拿走就能用!![](https://g.csdnimg.cn/static/logo/favicon32.ico)https://blog.csdn.net/boysoft2002/article/details/120549021?spm=1001.2014.3001.5501](https://blog.csdn.net/boysoft2002/article/details/120549021?spm=1001.2014.3001.5501 "Python “今日新闻”一个小程序,拿走就能用!_汉阳Hann's Home-CSDN博客")这次我要实战一个天气预报类的爬虫——
### 爬取城市七日天气预报
先来爬取我们大苏州的,来瞅瞅大昆山的天气预报吧
from bs4 import BeautifulSoup as bs
from requests import get
Agent = ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36’
def weather(url):
res = []
try:
data = get(url,headers = {‘User-Agent’:Agent})
data.encoding=‘uft-8’
soup = bs(data.text,‘html.parser’)
city = soup.find(‘div’,class_=‘crumbs fl’).get_text().strip()
List = soup.select(“ul[class=‘t clearfix’] li”)
for li in List:
try:
data = li.select(‘h1’)[0].text
text = li.select(“p[class=‘wea’]”)[0].text
temp = li.findAll(‘span’)[0].text + ‘/’ + li.findAll(‘i’)[0].text
res.append((city.split()[-1],data,text,temp))
except Exception as err: print(err)
except Exception as err: print(err)
return res
url = ‘http://www.*******.com.cn/weather/’
ext = ‘.shtml’
city = {‘苏州’:‘101190401’,‘昆山’:‘101190404’,‘太仓’:‘101190408’,‘常熟’:‘101190402’,‘张家港’:‘101190403’}
#方法一:遍历已知的城市代码
suzhou = 101190401
for i in range(suzhou,suzhou+12):
print(i,‘\n’,weather(url+str(i)+ext),‘\n’)
print(‘=’*80)
#方法二:遍历事先做好的城市代码字典
for i in city:
print(i,‘\n’,weather(url+city[i]+ext),‘\n’)
返回的爬取结果:
>
> 101190401
> [('城区', '1日(今天)', '多云', '/22℃'), ('城区', '2日(明天)', '多云转晴', '33℃/22℃'), ('城区', '3日(后天)', '晴', '33℃/23℃'), ('城区', '4日(周一)', '晴', '34℃/25℃'), ('城区', '5日(周二)', '晴转多云', '34℃/24℃'), ('城区', '6日(周三)', '多云', '30℃/23℃'), ('城区', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]
>
>
> 101190402
> [('常熟', '1日(今天)', '多云', '/21℃'), ('常熟', '2日(明天)', '多云转晴', '32℃/23℃'), ('常熟', '3日(后天)', '晴', '33℃/24℃'), ('常熟', '4日(周一)', '晴', '33℃/23℃'), ('常熟', '5日(周二)', '晴转多云', '34℃/24℃'), ('常熟', '6日(周三)', '多云', '31℃/23℃'), ('常熟', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]
>
>
> 101190403
> [('张家港', '1日(今天)', '多云', '/20℃'), ('张家港', '2日(明天)', '多云转晴', '31℃/22℃'), ('张家港', '3日(后天)', '晴', '32℃/23℃'), ('张家港', '4日(周一)', '晴', '33℃/23℃'), ('张家港', '5日(周二)', '晴转多云', '34℃/24℃'), ('张家港', '6日(周三)', '多云', '29℃/23℃'), ('张家港', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]
>
>
> 101190404
> [('昆山', '1日(今天)', '多云', '/21℃'), ('昆山', '2日(明天)', '多云转晴', '32℃/23℃'), ('昆山', '3日(后天)', '晴', '33℃/24℃'), ('昆山', '4日(周一)', '晴', '33℃/24℃'), ('昆山', '5日(周二)', '晴转多云', '34℃/24℃'), ('昆山', '6日(周三)', '多云', '30℃/23℃'), ('昆山', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]
>
>
> 101190405
> [('吴中', '1日(今天)', '多云', '/22℃'), ('吴中', '2日(明天)', '多云转晴', '33℃/22℃'), ('吴中', '3日(后天)', '晴', '33℃/23℃'), ('吴中', '4日(周一)', '晴', '34℃/25℃'), ('吴中', '5日(周二)', '晴转多云', '34℃/24℃'), ('吴中', '6日(周三)', '多云', '30℃/23℃'), ('吴中', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]
>
>
> 101190406
> [('虎丘', '1日(今天)', '多云', '/22℃'), ('虎丘', '2日(明天)', '多云转晴', '33℃/22℃'), ('虎丘', '3日(后天)', '晴', '33℃/23℃'), ('虎丘', '4日(周一)', '晴', '34℃/25℃'), ('虎丘', '5日(周二)', '晴转多云', '34℃/24℃'), ('虎丘', '6日(周三)', '多云', '30℃/23℃'), ('虎丘', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]
>
>
> 101190407
> [('吴江', '1日(今天)', '多云', '/21℃'), ('吴江', '2日(明天)', '多云转晴', '32℃/22℃'), ('吴江', '3日(后天)', '晴', '33℃/23℃'), ('吴江', '4日(周一)', '晴', '33℃/22℃'), ('吴江', '5日(周二)', '晴转多云', '34℃/23℃'), ('吴江', '6日(周三)', '多云', '31℃/23℃'), ('吴江', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]
>
>
> 101190408
> [('太仓', '1日(今天)', '多云', '/20℃'), ('太仓', '2日(明天)', '多云转晴', '31℃/23℃'), ('太仓', '3日(后天)', '晴', '32℃/24℃'), ('太仓', '4日(周一)', '晴', '33℃/22℃'), ('太仓', '5日(周二)', '晴转多云', '34℃/24℃'), ('太仓', '6日(周三)', '多云', '30℃/22℃'), ('太仓', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]
>
>
> 101190409
> [('相城', '1日(今天)', '多云', '/22℃'), ('相城', '2日(明天)', '多云转晴', '33℃/22℃'), ('相城', '3日(后天)', '晴', '33℃/23℃'), ('相城', '4日(周一)', '晴', '34℃/25℃'), ('相城', '5日(周二)', '晴转多云', '34℃/24℃'), ('相城', '6日(周三)', '多云', '30℃/23℃'), ('相城', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]
>
>
> 101190410
> [('姑苏', '1日(今天)', '多云', '/22℃'), ('姑苏', '2日(明天)', '多云转晴', '33℃/22℃'), ('姑苏', '3日(后天)', '晴', '33℃/23℃'), ('姑苏', '4日(周一)', '晴', '34℃/25℃'), ('姑苏', '5日(周二)', '晴转多云', '34℃/24℃'), ('姑苏', '6日(周三)', '多云', '30℃/23℃'), ('姑苏', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]
>
>
> 'NoneType' object has no attribute 'get\_text'
> 101190411 ###不存在的城市代码当然会报错###
> []
>
>
> 'NoneType' object has no attribute 'get\_text'
> 101190412
> []
>
>
> ================================================================================
> 苏州
> [('城区', '1日(今天)', '多云', '/22℃'), ('城区', '2日(明天)', '多云转晴', '33℃/22℃'), ('城区', '3日(后天)', '晴', '33℃/23℃'), ('城区', '4日(周一)', '晴', '34℃/25℃'), ('城区', '5日(周二)', '晴转多云', '34℃/24℃'), ('城区', '6日(周三)', '多云', '30℃/23℃'), ('城区', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]
>
>
> 昆山
> [('昆山', '1日(今天)', '多云', '/21℃'), ('昆山', '2日(明天)', '多云转晴', '32℃/23℃'), ('昆山', '3日(后天)', '晴', '33℃/24℃'), ('昆山', '4日(周一)', '晴', '33℃/24℃'), ('昆山', '5日(周二)', '晴转多云', '34℃/24℃'), ('昆山', '6日(周三)', '多云', '30℃/23℃'), ('昆山', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]
>
>
> 太仓
> [('太仓', '1日(今天)', '多云', '/20℃'), ('太仓', '2日(明天)', '多云转晴', '31℃/23℃'), ('太仓', '3日(后天)', '晴', '32℃/24℃'), ('太仓', '4日(周一)', '晴', '33℃/22℃'), ('太仓', '5日(周二)', '晴转多云', '34℃/24℃'), ('太仓', '6日(周三)', '多云', '30℃/22℃'), ('太仓', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]
>
>
> 常熟
> [('常熟', '1日(今天)', '多云', '/21℃'), ('常熟', '2日(明天)', '多云转晴', '32℃/23℃'), ('常熟', '3日(后天)', '晴', '33℃/24℃'), ('常熟', '4日(周一)', '晴', '33℃/23℃'), ('常熟', '5日(周二)', '晴转多云', '34℃/24℃'), ('常熟', '6日(周三)', '多云', '31℃/23℃'), ('常熟', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]
>
>
> 张家港
> [('张家港', '1日(今天)', '多云', '/20℃'), ('张家港', '2日(明天)', '多云转晴', '31℃/22℃'), ('张家港', '3日(后天)', '晴', '32℃/23℃'), ('张家港', '4日(周一)', '晴', '33℃/23℃'), ('张家港', '5日(周二)', '晴转多云', '34℃/24℃'), ('张家港', '6日(周三)', '多云', '29℃/23℃'), ('张家港', '7日(周四)', '多云转雷阵雨', '31℃/24℃')]
>
>
>
数据是有了,怎样更美化地输出需要另外的模块,先放一放。更为重要的问题是:怎样找到各城市的代码?比如,苏州对应的是 101190401 ,它之后的几个连续数字对应的是苏州辖内的各区和县级市。
网上很多文章都是爬取各省份的文字版网页( www.\*\*\*\*\*\*.com.cn/textFC/jiangsu.shtml 等)中的城市代码,这样还不是很方便。
经过摸查了很多个网页,终于发现了一个网页中可查到城市代码:
>
> https://d4.weather.com.cn/geong/v1/api?params={%22method%22:%22stationinfo%22,%22lng%22:120.592412,%22lat%22:31.303564}
> 注:%22就是双引号,被浏览器转码了
>
>
>
其返回内容为:
>
>
> ```
> {"status":"success","errmsg":"","timestamp":1622032653,"location":{"lng":120.592412,"lat":31.303564},"data":{"station":{"areaid":"101190401","category":"city","namecn":"苏州","nameen":"suzhou","disticten":"suzhou","distictcn":"苏州","provinceen":"jiangsu","provincecn":"江苏"}}}
### 最后
> **🍅 硬核资料**:关注即可领取PPT模板、简历模板、行业经典书籍PDF。
> **🍅 技术互助**:技术群大佬指点迷津,你的问题可能不是问题,求资源在群里喊一声。
> **🍅 面试题库**:由技术群里的小伙伴们共同投稿,热乎的大厂面试真题,持续更新中。
> **🍅 知识体系**:含编程语言、算法、大数据生态圈组件(Mysql、Hive、Spark、Flink)、数据仓库、Python、前端等等。
**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**
**[需要这份系统化学习资料的朋友,可以戳这里获取](https://bbs.csdn.net/forums/4304bb5a486d4c3ab8389e65ecb71ac0)**
**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**