bs4的基本使用

最新推荐文章于 2024-07-17 21:04:45 发布

程序员川雪

最新推荐文章于 2024-07-17 21:04:45 发布

阅读量378

点赞数 9

文章标签： python 网络爬虫

本文链接：https://blog.csdn.net/2303_81403407/article/details/135349163

版权

文章目录

- - bs4的基本使用

bs4的基本使用

BeautifulSoup是一个可以从HTML或XML中提取数据的Python库

安装bs4

pip install bs4

导入bs4

from bs4 import BeautifulSoup

基本使用

示例Html

html=""" 
    <ul>
        <li>张无忌</li>
        <li id="abc"><a href="zhouxingchi.com">周星驰</a></li>
        <li>猪八戒</li>
        <li>武则天</li>
    </ul> 
"""

首先初始化BeautifulSoup对象

# 1.初始化对象
page=BeautifulSoup(html,"html.parser")

接着可以开始查找标签

# 2.查找ID的值为abc的li标签
page.find("li",attrs={"id":"abc"})

find函数

find函数，第一个参数是标签名，第二个参数是属性，这里是为了查找ID值为abc的li标签，满足需求的就只有一个。

page.findAll("li",attrs={"id":"abc"})

find函数从页面中查找满足条件的值，并且只查找一个，而findAll则是查找所有，并且参数和find完全一致

这里调用find后的输出结果如下：

E:\pyproject\test\Scripts\python.exe E:\pyproject\test\main.py 
<li id="abc"><a href="zhouxingchi.com">周星驰</a></li>

进程已结束，退出代码为 0

这里已经找到了我们要的li标签了，那么如果还想再往里一层找到里面的a标签的话，就可以继续查找

a=li.find("a")

输出结果：

E:\pyproject\test\Scripts\python.exe E:\pyproject\test\main.py 
<a href="zhouxingchi.com">周星驰</a>

进程已结束，退出代码为 0

如果想要拿到标签里面的文本内容，可以用

print(a.text)

如果想要拿到标签里面的链接，则可以通过取属性值的方式来获取

print(a.get("href"))

find_all函数

如果我想要查找到Html里面所有的li标签，那么就可以使用find_all函数

li_list=page.find_all("li")

for li in li_list:
   print(li)

li标签，那么就可以使用find_all函数

li_list=page.find_all("li")

for li in li_list:
   print(li)

程序员川雪

关注

9
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
bs4的基本使用

find函数，第一个参数是标签名，第二个参数是属性，这里是为了查找ID值为abc的li标签，满足需求的就只有一个。find函数从页面中查找满足条件的值，并且只查找一个，而findAll则是查找所有，并且参数和find完全一致。这里已经找到了我们要的li标签了，那么如果还想再往里一层找到里面的a标签的话，就可以继续查找。如果我想要查找到Html里面所有的li标签，那么就可以使用find_all函数。如果想要拿到标签里面的链接，则可以通过取属性值的方式来获取。如果想要拿到标签里面的文本内容，可以用。
复制链接

扫一扫