python爬虫urllib（2） —带有请求参数的爬虫

最新推荐文章于 2023-02-04 15:51:15 发布

龟的小号

最新推荐文章于 2023-02-04 15:51:15 发布

阅读量1.8k

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/hju22/article/details/88699642

版权

本文介绍了如何处理URL中的请求参数，通过Python的urllib库进行网络请求。详细步骤包括将请求参数转化为字符串，使用opener处理代理IP，创建不同浏览器的请求对象，发送请求并用正则表达式清洗爬取的数据。

摘要由CSDN通过智能技术生成

文章目录

一、url中请求参数的处理

如果请求中有参数时，我们需要把key-value转换为字符串

#url
url="http://www.baidu.com/s?"

#请求参数
params={"wd":"pyhon爬虫"}
#将请求参数转换成url编码格式(字符串）
paramsStr=urllib.parse.urlencode(params)

url=url+paramsStr

二、实例—带有请求参数的爬虫

1.步骤

1、请求url（参数格式转换）
2、opener（代理ip）
3、创建请求对象（不同浏览器）
4、发送请求
5、正则清洗数据

2.脚本

import random
import re
import urllib
from urllib import request

#url
url="http://www.baidu.com/s?"

#请求参数
params={"wd":"pyhon爬虫"}
#将请求参数转换成url编码格式(字符串）
paramsStr=urllib.parse.urlencode(params)
url=url+paramsStr

#代理ip
proxylist=[{"http":"120.194.18.90:81"},{"http":"39.137.168.229:80"}]
proxy=random.choice(proxylist)
pri