Python爬虫 BeautifulSoup库应用详解

最新推荐文章于 2025-08-31 14:06:21 发布

胡乱huluan

最新推荐文章于 2025-08-31 14:06:21 发布

阅读量3.3k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： # 网安—Python爬虫文章标签： python 爬虫安全 beautifulsoup

本文链接：https://blog.csdn.net/qq_44867435/article/details/104412070

网安—Python爬虫专栏收录该内容

23 篇文章

订阅专栏

本文详细介绍如何使用Python的BeautifulSoup库进行网页数据抓取，包括库的安装、导入及与requests库结合使用的方法，适合初学者快速掌握爬虫技能。

Python爬虫（四）

学习Python爬虫过程中的心得体会以及知识点的整理，方便我自己查找，也希望可以和大家一起交流。

—— BeautifulSoup库应用详解 ——

一.安装BeautifulSoup库

可以直接使用pip安装，如果电脑上没安装pip，可以到以下网址教程中安装。
Linux：安装教程。
Windows：安装教程。
MAC OS：直接在终端输入代码：sudo easy_install pip。

安装好pip后，我们就可以安装BeautifulSoup库了。
直接输入代码：pip install bs4。
因为BeautifulSoup是bs4的一个部分。

二.导入BeautifulSoup库

我们首先在Python中导入BeautifulSoup库：

from bs4 import BeautifulSoup

对于新手来说，我们需要知道BeautifulSoup库有什么功能方法，我们可以dir一下：

print （dir(BeautifulSoup))

在这里插入图片描述
在这里我们可以看到BeautifulSoup库的各种方法。

import requests
from bs4 import BeautifulSoup

r = requests.get("https://www.baidu.com")
n = r.content
m = BeautifulSoup(n,"html.parser")

BeautifulSoup库最主要的功能就是从网页爬取我们需要的数据。BeautifulSoup将 html 解析为对象进行处理，全部页面转变为字典或者数组，相对于正则表达式的方式，可以大大简化处理过程。BeautifulSoup将htmll对象转成对象的过程。

三.requests库的方法

import requests
from bs4 import BeautifulSoup

r = requests.get("https://www.baidu.com")
n = r.content
m = BeautifulSoup(n,"html.parser")
print(m.prettify())
print(m.head.title)
print(m.p)
for i in m.find_all("p"):
    print(i)
    print(type(i))
st = m.find_all("p")[0]
str(st)
print (st)
print (type(st))

（参数）html.parser：避免因BeautifulSoup库和Python之间的版本不一致而引起的error报警。
prettify：输出格式有缩进。
当没有缩进的时候：

当有缩进的时候：
title：获取源代码中的title标签内容。可以在前面规定位置，如想要获取在head位置的title：

print(m.head.title)

title.name：获取titile标签名。
title.string：获取title内的string类型字符。
title.parent.string：获取titile父标签名。

p：获取源代码中的p标签内容。当不唯一的时候，返回第一个。
- p.name：获取p标签名。
- p.string：获取p内的string类型字符。
- p.parent.string：获取p父标签名。
find_all()：获取源代码中所有的某一规定标签内容。例如下面的代码，就是查找所有的p标签：

  for i in m.find_all("p"):
    print(i)

当然，也可以进行多关键词查找，例如：find_all(“p”,“a”,“title”)。也可以发现，这里的i类似于同一个列表的类型，但是其实并非是列表，不过可以按照列表来理解，比如我们要找源代码中第二个p标签：

print (m.find_all("p")[2])

那么，find_all这里究竟是什么类型呢，这里我们可以查一下i的类型：
在这里插入图片描述
我们可以看到，类型不是string，而是对象。如果我们想改成改为string，直接str()转换就可以了：

查找参数：以上方法都是只能在标签处查找，可如果要查找下面源代码中的参数href：

<a href="http://ir.baidu.com">About Baidu</a>

需要以下代码以及方法：

  for i in m.find_all("a"):
    print(i)["href"]

现在查找到a标签，然后再所有a标签中查找“href”参数，如果只查找其中某个，只需要找到特殊的标志，如id值、class值（注意：class在查找的时候是“class_”）：

  s=m.find_all(id="link2",class_="sister")[0].["href"]
  print(s)

正则表达式：BeautifulSoup库也支持正则表达式：

import requests
from bs4 import BeautifulSoup
import re

r = requests.get("https://www.baidu.com")
n = r.content
m = BeautifulSoup(n,"html.parser")
for tag in m.find_all(re.compile("^p")):
	print(tag.name)