Python爬虫入门（二）：GET请求获取响应

最新推荐文章于 2024-07-17 16:07:01 发布

公众号：重生之成为赛博女保安

最新推荐文章于 2024-07-17 16:07:01 发布

阅读量3.5k

点赞数 1

分类专栏： Python-爬虫-猫看了给我做三菜一汤教程文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/qq_34013974/article/details/122165758

版权

Python-爬虫-猫看了给我做三菜一汤教程专栏收录该内容

14 篇文章 9 订阅

订阅专栏

urllib.request（Python2.X中的urllib2）

requests

selenium

上文我们说到，爬虫的原理是“模仿浏览器向页面发送请求，然后获取回传的文件再对其进行分析”。本文我们介绍爬虫的第一步：向页面（服务器）发送请求。

大多数爬虫只用到了最基本的GET请求，作为入门我们也就先只用GET请求。本文假设你对GET请求有所了解，下文会给出一些常见的模块发送GET请求的方法。

urllib.request（Python2.X中的urllib2）

作为python自带的模块，urllib功能强大，虽然不能自动识别响应的编码（这不是难事，可以自己写个函数实现）。

import urllib.request

response=urllib.request.urlopen("你想要爬取的url")#获取服务器的响应

response.read().decode("utf-8")#读取响应html内容 #decode不总是utf-8，因为不同的网站的编码可能不同。

requests

相比于urllib，requests的函数更加简明易读，各种请求方式只要调用同名函数就能实现，还能自动识别相应的编码。不过我并不推荐直接使用.text读取响应，因为其乱码情况比较严重。

import requests

response=requests.get("你想要爬取的url") #如果想要换成post或者delete等只要把函数名称换一下就行了，都是同名的

response.encoding = 'utf-8' #最好是在读取之前设置一下编码，之前测试不设置编码的响应都出现了乱码的情况

response.text #读取响应内容

selenium

selenium其实更常用在测试领域，作为爬虫他的环境要求高而且速度慢（这些我在上一节应该已经讲过了），但是有些反爬措施很严的网站（大量ajax内容、检查Headers）采用selenium却会有新的发现。

所以我不推荐你在“仅仅需要小用一下爬虫”的范围使用selenium。如果你爬取的信息需要大量的模拟浏览器操作（提交表单、运行js、突破反爬），selenium才会是你的选择。所以这里我就只讲一下selenium的环境需求，后面的内容请跳到进阶篇查看。

在使用selenium之前，我们需要安装适合其的WebDriver和浏览器，并将WebDriver的路径写入环境变量。因为selenium要使用Driver驱动浏览器访问url。

各浏览器的WebDriver下载地址（注意Driver的版本要和浏览器的版本匹配，匹配不是一致）：

-Chrome：http://chromedriver.storage.googleapis.com/index.html

-FireFox：https://github.com/mozilla/geckodriver/releases/

-IE：http://selenium-release.storage.googleapis.com/index.html

公众号：重生之成为赛博女保安

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫入门（二）：GET请求获取响应

上文我们说到，爬虫的原理是“模仿浏览器向页面发送请求，然后获取回传的文件再对其进行分析”。本文我们介绍爬虫的第一步：向页面（服务器）发送请求。大多数爬虫只用到了最基本的GET请求，作为入门我们也就先只用GET请求。本文假设你对GET请求有所了解，下文会给出一些常见的模块发送GET请求的方法。urllib.request（Python2.X中的urllib2）作为python自带的模块，urllib功能强大，虽然不能自动识别响应的编码（这不是难事，可以自己写个函数实现）。import url
复制链接

扫一扫

专栏目录