网页内容获取
requests 模块安装与导入
- 前面内容讲到,网页爬虫能够获取网页上的信息,要使用Python来爬取网页内容,需要安装requests模块,该模块可以用于获取网络数据。
- 由于requests模块是Python的第三方模块,需要额外安装,安装requests模块非常简单,在电脑终端输入代码:pip install requests(如果在自己电脑上安装不上或安装缓慢,可在命令后面添加如下配置进行加速: pip install requests -i https://mirrors.aliyun.com/pypi/simple/)
# 安装requests模块
pip install requests
- 安装之后,需要用import导入requests模块
import requests
【注意】
- 在自己电脑上安装模块后,导入requests模块时,可能会出现如下报错信息:ModuleNotFoundError: No module named 'requests’
- 出现这种报错原因可能是:模块未安装上或安装路径错误。
- 解决办法:遇到代码运行错误,可以复制报错信息取检索解决方案(这里推荐用 CSDN 哦)。
请求网页内容
对于爬虫来说,要获取下图网页中的内容,就需要网页的URL。
- 复制链接的方法:打开网页,点击链接框,右键选择复制。
https://nocturne-spider.baicizhan.com/2020/07/29/example-post-3/
- 将该链接赋值给url
url = "https://nocturne-spider.baicizhan.com/2020/07/29/example-post-3/"
requests.get()函数
- **requests.get()**函数可用于模拟浏览器请求网页的过程,在Python语言中使用该函数,就能够获取网页数据。
- get()函数中传入要访问网页的URL,就像浏览器打开URL一样。
- requests.get()是获取网页信息的主要函数,使用该函数获取案例网页的URL,会返回一个Response对象,也就是前面说到的响应消息。
- 这里使用requests.get()方法(在请求某些网站时,会收到 SSLError 异常,原因是我们之前提到的 HTTPS 的安全协议造成的,这时可以在请求网页时添加一个参数 verify = False,表示忽略证书认证。)获取案例URL网页数据,并输出返回内容。
import requests
url = "https://nocturne-spider.baicizhan.com/2020/07/29/example-post-3/"
response = requests.get(url, verify = False)
print(response)
output
<Response [200]>
- 使用print输出响应消息会得到**Response [200]**表示响应消息中状态码为200,说明此次浏览器的请求执行成功。
查看请求方法
- 对于链接为https://nocturne-spider.baicizhan.com/2020/07/29/example-post-3/的网页,我们把查看请求方法分为以下8个步骤(这里推