网络爬虫-BeautifulSoup库

最新推荐文章于 2023-09-21 10:07:20 发布

山外青山楼外你

最新推荐文章于 2023-09-21 10:07:20 发布

阅读量157

点赞数 1

分类专栏：网络爬虫文章标签： python

本文链接：https://blog.csdn.net/Wang_87_76/article/details/119519634

版权

3 篇文章 0 订阅

订阅专栏

Beautifulsoup的安装

pip install beautifulsoup4

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>data</p>', 'html.parser')`

*首先我们要了解html网页的构成，html网页主要是由标签页构成的，我们beautifulsoup库就是解析、遍历、维护“标签树”的功能库
在这里插入图片描述

BeautifulSoup对应一个HTML/XML文档的全部内容

soup = BeautifulSoup('<html>data</html>'，'html.parser')

其中html.parser是解析器
在这里插入图片描述

在这里插入图片描述

任何存在于HTML语法中的标签都可以用soup.《tag》访问获得
当HTML文档中存在多个相同tag对应内容时，soup.《tag返回第一个
每个《Tag》都有自己的名字，通过《tag》.name获取，字符串类型
基本元素有以下几种
在这里插入图片描述

在这里插入图片描述
遍历children节点的内容

for child in soup.body.children:
print(child

遍历子孙节点的全部内容

for child in soup.body.descendants:
print(child

在这里插入图片描述

for parent in soup.a.parent:
    if parent is None:
       print(parent)
    else:
        print(parent.name)

在这里插入图片描述

for sibling in soup.a.next_sibling:
print(sibling)
for sibling in soup.a.previous_sibling:
print(sibling)

我们获取内容后要输出内容，这个时候我们就需要用到bs4库的格式化内容输出，让HTML内容更加“友好”的显示

在这里插入图片描述

关注