学习 Python 爬虫的第二天

网页内容获取

requests 模块安装与导入

  • 前面内容讲到,网页爬虫能够获取网页上的信息,要使用Python来爬取网页内容,需要安装requests模块,该模块可以用于获取网络数据。
  1. 由于requests模块是Python的第三方模块,需要额外安装,安装requests模块非常简单,在电脑终端输入代码:pip install requests(如果在自己电脑上安装不上或安装缓慢,可在命令后面添加如下配置进行加速: pip install requests -i https://mirrors.aliyun.com/pypi/simple/)
# 安装requests模块
pip install requests
  1. 安装之后,需要用import导入requests模块
# 使用import导入requests模块
import requests

【注意】

  • 在自己电脑上安装模块后,导入requests模块时,可能会出现如下报错信息:ModuleNotFoundError: No module named 'requests’
  • 出现这种报错原因可能是:模块未安装上或安装路径错误
  • 解决办法:遇到代码运行错误,可以复制报错信息取检索解决方案(这里推荐用 CSDN 哦)。

请求网页内容

对于爬虫来说,要获取下图网页中的内容,就需要网页的URL。

  1. 复制链接的方法:打开网页,点击链接框,右键选择复制。
    https://nocturne-spider.baicizhan.com/2020/07/29/example-post-3/
  2. 将该链接赋值给url
# 将网页链接赋值给url
url = "https://nocturne-spider.baicizhan.com/2020/07/29/example-post-3/"

requests.get()函数

  • **requests.get()**函数可用于模拟浏览器请求网页的过程,在Python语言中使用该函数,就能够获取网页数据。
  • get()函数中传入要访问网页的URL,就像浏览器打开URL一样。
  • requests.get()是获取网页信息的主要函数,使用该函数获取案例网页的URL,会返回一个Response对象,也就是前面说到的响应消息。
  • 这里使用requests.get()方法(在请求某些网站时,会收到 SSLError 异常,原因是我们之前提到的 HTTPS 的安全协议造成的,这时可以在请求网页时添加一个参数 verify = False,表示忽略证书认证。)获取案例URL网页数据,并输出返回内容。
# 使用import导入requests模块
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值