爬虫get请求与post请求处理

最新推荐文章于 2024-03-21 16:36:22 发布

为谁攀登

最新推荐文章于 2024-03-21 16:36:22 发布

阅读量902

点赞数 1

分类专栏： # 爬虫文章标签： python

本文链接：https://blog.csdn.net/shaixinxin/article/details/106822405

版权

爬虫专栏收录该内容

16 篇文章 0 订阅

订阅专栏

1、Get请求

get请求就是在url后面以拼接方式传参，但是如果参数是中文时需要转码处理，否则会报错。
比如我们访问豆瓣的官网，然后在搜索框中输入“电影”关键字，可以看到浏览器中的请求为https://www.douban.com/search?q=电影
在这里插入图片描述
如果我们直接模拟上面的url请求，则会报如下错误UnicodeEncodeError: 'ascii' codec can't encode characters in position 14-15: ordinal not in range(128)，原因是使用浏览器访问时，它会自动帮我们进行参数转码处理，而现在我们用代码访问，所以需要自己处理。

from urllib.request import urlopen
from urllib.request import Request
from random import choice

# 1.爬取站点访问地址
url = "https://www.douban.com/search?q=电影"
# 2.模拟多个浏览器的User-Agent（分别为Chrome、Firefox、Edge）
user_agents = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:77.0) Gecko/20100101 Firefox/77.0",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/18.17763"
]
# 3.随机设置请求头信息
headers = {
    "User-Agent": choice(user_agents)
}
# 4.将请求头信息封装到Request对象中
req = Request(url, headers=headers)
# 5.发送请求并打印返回值
print(urlopen(req).read().decode())

修改，引入urlencode函数对url进行参数转码就可以正常访问了

省略..
from urllib.parse import urlencode

# 1.爬取站点访问地址
args = {'q': '电影'}
url = "https://www.douban.com/search?{}".format(urlencode(args))
省略...

2、Post请求

post请求是通过Request对象中的data属性来传参，我们这里模拟一个登录请求

from urllib.request import urlopen
from urllib.request import Request
from random import choice
from urllib.parse import urlencode

# 1.url与参数处理
url = "https://www.douban.com/"
args = {
    'name': 'abcdef123456',
    'password': '123456'
}
# 2.模拟多个浏览器的User-Agent（分别为Chrome、Firefox、Edge）
user_agents = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:77.0) Gecko/20100101 Firefox/77.0",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/18.17763"
]
# 3.随机设置请求头信息
headers = {
    "User-Agent": choice(user_agents)
}
# 4.将请求头信息封装到Request对象中
req = Request(url, headers=headers, data=urlencode(args).encode())
# 5.发送请求并打印返回值
print(urlopen(req).read().decode())