在Python爬虫中,当你发送一个HTTP请求到目标网站后,通常会得到一个Response对象。这个对象包含了服务器的响应,如状态码、响应头、响应体等。处理Response对象通常包括以下几个步骤:
检查状态码:首先,你需要检查HTTP响应的状态码。状态码是一个三位数的数字,用于表示请求的处理结果。常见的状态码有200(成功)、404(未找到)等。
python
复制
import requests
response = requests.get(‘http://example.com’)
if response.status_code == 200:
print(‘请求成功’)
else:
print(‘请求失败,状态码:’, response.status_code)
解析响应体:响应体通常包含了网页的HTML内容或其他格式的数据。你需要根据目标网站的数据格式来解析响应体。常见的解析方法包括正则表达式、BeautifulSoup、lxml等。
python
复制
from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, ‘html.parser’)
现在你可以使用BeautifulSoup对象来提取网页中的数据
处理异常:在爬虫中,你可能会遇到各种异常,如网络问题、服务器错误等。为了确保程序的稳定性,你应该使用try…except语句来处理这些异常。
python
复制
try:
response = requests.get(‘http://example.com’)