[python爬虫笔记]
💕学习爬虫的第三天💕
requests 是一个常用的 HTTP 请求库,可以方便地向网站发送 HTTP 请求,并获取响应结果。它模块比 urllib 模块更简洁。
使用 requests 发送 HTTP 请求需要先导入 requests 模块:
import requests
导入后就可以发送 HTTP 请求,使用 requests 提供的方法向指定 URL 发送 HTTP 请求,例如:
# 发送请求
x = requests.get('https://www.runoob.com/')
# 返回网页内容
print(x.text)
每次调用 requests 请求之后,会返回一个 response 对象,该对象包含了具体的响应信息,如状态码、响应头、响应内容等。
print(response.status_code) # 获取响应状态码
print(response.headers) # 获取响应头
print(response.content) # 获取响应内容
另外,爬虫的请求方式有很多,最常用的请求方式分为两种:
GET 和 POST
使用GET时打印文本需要使用text方法,而使用POST方式打印输出时则需要使用json()
json可以将服务器返回的内容直接处理成json() => dict
import requests
# 1.获取目标网页的url
url = "https://fanyi.baidu.com/sug"
# 2. 解析网页,拿到源码
# 伪装头部
hea = {
"User-Agent":
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0"
}
# 控制台输入
s = input('请输入想要查找的单词:')
#form-data格式化数据输入
dat = {
"kw": s
}
resp = requests.post(url, headers=hea, data=dat)
print(resp.json())
其中headers很关键,如果不添加headers,有很大的概率会被反爬。
另外,在爬虫中发POST请求,发送的数据必须放在字典中,通过data参数进行传递
如果要使用data传递数据时,在负载中可以看到【表单数据】的的格式,格式的关键字必须是“kw”,如下所示。
#form-data格式化数据输入
dat = {
"kw": s
}
resp = requests.post(url, headers=hea, data=dat)
如果不知道怎么写,在浏览器中可以查到相关格式,直接复制粘贴即可。
当然,在python爬虫中不止一种封装url的方法,也就是自己传递参数时的封装
使用第二种方式封装GET请求
首先我们需要一个url,这个url可以是不带参数的,我们通过param{}对参数封装,然后在requests发送get请求时加入这些参数。幸运的是,我们不需要自己拼接url参数,param会帮我们自动和原始的url进行拼接。不得不说,太良心了👏。
# 使用第二种方式封装GET请求
import requests
# 1. 准备目标网页URL
url = "https://movie.douban.com/j/chart/top_list"
# 2. 使用GET请求发送请求
# 需要伪装请求头
header = {
"User-Agent":
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0"
}
# 使用第二中方式封装url参数
param = {
"type": 5,
"interval_id": "100:90",
"action": "",
"start": 60,
"limit": 20
}
resp = requests.get(url, headers=header, params=param)
print(resp.text)