Python爬虫基础-01-带有请求参数的爬虫

最新推荐文章于 2024-08-17 20:45:04 发布

iceburg-blogs

最新推荐文章于 2024-08-17 20:45:04 发布

阅读量1.2w

点赞数 17

分类专栏：爬虫技术文章标签： Python爬虫

本文链接：https://blog.csdn.net/eagleuniversityeye/article/details/80595981

版权

本文介绍了Python爬虫中GET和POST请求的使用，包括如何添加请求参数。GET请求的参数直接拼接在URL中，而POST请求的参数需要封装处理。通过案例展示了GET请求在爬取分页网站时的便利性以及POST请求在处理如有道翻译等场景的应用。

摘要由CSDN通过智能技术生成

在上一篇文章Python爬虫入门中，Python爬虫程序爬取了指定网页的信息，爬虫发出的请求是一个固定的URL和部分请求信息，并没有请求参数，但是爬虫工作过程中发出的请求一般都需要加上请求参数，以完成对指定内容的爬取

HTTP请求分为POST请求和GET请求，在Python爬虫中，这两种请求因其结构不同，所以添加请求参数的方式也不同，下面将分别介绍使用POST请求和GET请求的Python爬虫

GET请求

使用GET请求的Python爬虫比较简单，由于GET请求的请求参数包含在URL地址中，所以只需要先确定请求参数，然后将请求参数拼接到URL中即可，即 URL + 请求参数（字符串拼接）

使用GET请求的Python爬虫案例

首先，一个使用GET请求访问网页的例子。如下图所示，使用百度，以“爬虫”为关键字进行查询，可以看到，地址栏的URL为：https://www.baidu.com/s?word=爬虫。我们可以使用这个URL地址利用爬虫爬取该网页
这里写图片描述
我们写一个可以使用和上面一样的GET请求的Python爬虫程序，需要用到urlllib2包

# coding=utf-8

import urllib2

url = "http://www.baidu.com/s"
word = {
  "wd":"爬虫"}
# url首个分隔符是 ?
newurl = url + "?" + word     

# 添加User-Agent，完善请求信息
headers={ "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"}

request = urllib2.Reque