Python爬虫速成之路（2）：爬天气情况

绝命Coding

已于 2024-07-14 09:47:50 修改

阅读量539

点赞数 9

分类专栏： Python爬虫之路文章标签： python 爬虫 c++

于 2024-07-12 08:30:29 首次发布

本文链接：https://blog.csdn.net/qq_33445788/article/details/140368316

版权

Python爬虫之路专栏收录该内容

8 篇文章 1 订阅

订阅专栏

hello hello~ ，这里是绝命Coding——老白~💖💖 ，欢迎大家点赞🥳🥳关注💥💥收藏🌹🌹🌹

💥个人主页：绝命Coding-CSDN博客
💥 所属专栏：后端技术分享
这里将会不定期更新有关后端、前端的内容，希望大家多多点赞关注收藏💖

历史文章：

Python爬虫速成之路（1）：获取网页源代码-CSDN博客

使用requests.get()方法发送HTTP请求，并通过content属性获取网页的源代码

正则表达式(.*?)：它可以匹配任意长度的字符串，比如abcde，正则表达式a(.*?)e，它就会匹配上bcd。（基本后续的爬虫这一个正则表达式就已经够用了，万能）

import urllib.request as http
import re

#【天气预报】天气预报7天,10天,15天_全国天气网
url = 'http://tianqi.so.com/weather/101281901'
#获取网页源代码
content = http.urlopen(url).read().decode("utf-8")
#.*? 后面多个问号，代表非贪婪模式，也就是说只匹配符合条件的最少字符
pattern = re.findall(r'<div class="temperature">(.*?)</div>',content)
#<div class="temperature">13</div>
print('今天的温度是：{}°'.format(pattern[0]))

优化：

import requests  
import re  
content = requests.get("http://tianqi.so.com/weather/101281901").content.decode()  #获取网页源代码
pattern = re.findall(r'<div class="temperature">(.*?)</div>',content)  
print("今天的温度是:{}°".format(pattern[0]))

这里re.findall里面要求传入的是str类型
从str到bytes:调用方法encode().
从bytes到str:调用方法decode()