Python爬虫——使用requests和beautifulsoup4库来爬取指定网页的信息

Vous oublie@

于 2023-04-02 23:26:31 发布

阅读量1.9k

点赞数 3

分类专栏： python学习网页文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/qq_54000767/article/details/129919519

版权

python学习同时被 2 个专栏收录

28 篇文章 1 订阅

订阅专栏

网页

4 篇文章 0 订阅

订阅专栏

以下是一个简单的Python代码，使用requests和beautifulsoup4库来爬取指定网页的信息：

import requests
from bs4 import BeautifulSoup

url = "https://example.com"

# 发送GET请求，获取网页内容
response = requests.get(url)

# 将网页内容转化为BeautifulSoup对象，方便解析
soup = BeautifulSoup(response.content, "html.parser")

# 找到所有<a>标签，打印出它们的文本内容和链接
for link in soup.find_all("a"):
    print(link.text.strip(), link.get("href"))

代码解释：

首先导入了requests和beautifulsoup4库，用于向网站发送请求并解析网页内容。

定义了要爬取的网页的URL地址。

使用requests.get()方法向指定的URL发送GET请求，并将返回的响应对象赋值给变量response。

将response.content属性的内容传递给BeautifulSoup构造函数，创建一个soup对象。第二个参数"html.parser"指定使用Python内置的HTML解析器来解析网页内容。

使用soup.find_all("a")方法找到所有<a>标签，返回一个ResultSet对象，其中包含所有匹配的标签。

对于每个匹配的标签，使用.text属性获取其文本内容，并使用.get("href")方法获取其链接。

最后，将标签的文本内容和链接打印出来。.strip()方法用于去除文本内容中的空格和换行符。