爬虫学习-2

最新推荐文章于 2023-09-12 21:47:44 发布

a_b_c_007

最新推荐文章于 2023-09-12 21:47:44 发布

阅读量97

点赞数

分类专栏：笔记文章标签： python

本文链接：https://blog.csdn.net/a_b_c_007/article/details/118398272

版权

笔记专栏收录该内容

16 篇文章 0 订阅

订阅专栏

利用get请求转码

上一篇文章介绍的爬虫都是之间爬取的主页面，没有任何操作，如果有查询相关操作的话，就需要用到我们的get请求。

譬如在www.baidu.com页面中搜索上海，跳转页面的网址复制下来是：https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&tn=monline_3_dg&wd=%E4%B8%8A%E6%B5%B7&oq=%25E4%25B8%258A%25E6%25B5%25B7&rsv_pq=d12cfe88000698ee&rsv_t=48c1gtowHfHuKLR8PP0byaW%2BROC0dka1OlQuOsorKv5CiiVKXR8wLJ%2FbXkf6MrPgUE%2FB&rqlang=cn&rsv_dl=tb&rsv_enter=0&rsv_btype=t&rsv_sug3=11&rsv_sug1=8&rsv_sug7=100&rsv_sug4=1452。但我们看到的wd后面是“上海”两个字。所以如果我们想用电脑程序实习上海的搜索，就需要找到上海对应的编码。这个时候我们需要导入urllib.parse中的quote或者urlencode。（纯英文或者纯数字不需要编码转换，直接填就好，只有中文需要转码）

两者使用大同小异，先以quote举例

from urllib.request import Request,urlopen
from fake_useragent import UserAgent
from urllib.parse import quote

url="https://www.baidu.com/s?wd={}".format(quote("上海"))#转url中汉字的编码，因为之间wd后是汉字的话是无效的url

ua=UserAgent()
headers={
    "User-Agent":ua.chrome
}
url_2=Request(url,headers=headers)
reponse=urlopen(url_2)
info=reponse.read()
print(info.decode())

这是urlencode。

args={
    "wd":"上海",
    "ie":"utf-8"#可以写多对儿参数
}
print(urlencode(args))
url2="https://www.baidu.com/s?{}".format(urlencode(args))

我们看他的输出就可以看书urlencode输出时带着wd等名称，所以我们对url进行拼合的时候就直接在？后面添加。

a_b_c_007

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录