学习 Python 爬虫的第二天

最新推荐文章于 2024-02-21 16:31:23 发布

这个名字八个字儿

最新推荐文章于 2024-02-21 16:31:23 发布

阅读量487

点赞数

分类专栏：网络爬虫文章标签： python html

本文链接：https://blog.csdn.net/qq_45692354/article/details/119135653

版权

本文介绍了Python爬虫入门的基础知识，包括如何使用requests模块安装、导入及获取网页内容。通过requests.get()函数模拟浏览器请求，获取Response对象，并通过.status_code判断状态码确保请求成功。同时，讲解了HTML的基本结构和标签，如成对标签、单独标签及其属性，为后续爬虫解析网页内容打下基础。

摘要由CSDN通过智能技术生成

网页内容获取

requests 模块安装与导入

前面内容讲到，网页爬虫能够获取网页上的信息，要使用Python来爬取网页内容，需要安装requests模块，该模块可以用于获取网络数据。

由于requests模块是Python的第三方模块，需要额外安装，安装requests模块非常简单，在电脑终端输入代码:pip install requests（如果在自己电脑上安装不上或安装缓慢，可在命令后面添加如下配置进行加速： pip install requests -i https://mirrors.aliyun.com/pypi/simple/）

# 安装requests模块
pip install requests

安装之后，需要用import导入requests模块

# 使用import导入requests模块
import requests

【注意】

在自己电脑上安装模块后，导入requests模块时，可能会出现如下报错信息：ModuleNotFoundError: No module named 'requests’
出现这种报错原因可能是：模块未安装上或安装路径错误。
解决办法：遇到代码运行错误，可以复制报错信息取检索解决方案（这里推荐用 CSDN 哦）。

请求网页内容

对于爬虫来说，要获取下图网页中的内容，就需要网页的URL。

复制链接的方法：打开网页，点击链接框，右键选择复制。
https://nocturne-spider.baicizhan.com/2020/07/29/example-post-3/
将该链接赋值给url

# 将网页链接赋值给url
url = "https://nocturne-spider.baicizhan.com/2020/07/29/example-post-3/"

requests.get()函数

**requests.get()**函数可用于模拟浏览器请求网页的过程，在Python语言中使用该函数，就能够获取网页数据。
get()函数中传入要访问网页的URL，就像浏览器打开URL一样。
requests.get()是获取网页信息的主要函数，使用该函数获取案例网页的URL，会返回一个Response对象，也就是前面说到的响应消息。
这里使用requests.get()方法（在请求某些网站时，会收到 SSLError 异常，原因是我们之前提到的 HTTPS 的安全协议造成的，这时可以在请求网页时添加一个参数 verify = False，表示忽略证书认证。）获取案例URL网页数据，并输出返回内容。

# 使用import导入requests模块
import requests

# 将网页链接赋值给url
url = "https://nocturne-spider.baicizhan.com/2020/07/29/example-post-3/"

# 使用requests.get()方法获取url的内容，将结果赋值给response
response = requests.get(url, verify = False)

# 输出response
print(response)