python网络爬虫（三）：Beautiful Soup库

最新推荐文章于 2023-07-12 10:52:37 发布

酒千殇

最新推荐文章于 2023-07-12 10:52:37 发布

阅读量243

点赞数

分类专栏： python基础

本文链接：https://blog.csdn.net/qq_40492048/article/details/104734006

版权

一，安装
命令行进入python.exe文件所在目录，输入pip install bs4

二…Beatiful Soup库简介
以HTML文件为例，它的源代码由一组尖括号构成的标签组织起来的。每一对尖括号形成一个标签，而标签之间存在上下游关系，形成一个便签数。所以Beatiful Soup库是解析，遍历，维护“标签树”的功能库。

三…基本用法

from bs4 import BeautifulSoup%从bs4库中引入类BeautifulSoup
soup = BeautifulSoup('<p>data</p>','html.parser')

注意：BeautifulSoup是一个类，且分大小写。第一个参数是要解析的html格式的信息，后一个是解析器。
执行后BeautifulSoup对应一个HTML/XML文档的全部内容，编码方式都为utf-8编码。

四.BeatifulSoup类的基本元素

基本元素	说明
Tag	标签，最基本的信息组织单元，用<>和</>表明开头和结尾
Name	标签名字，上述尖括号里的内容。格式：<标签名>.name
Attributes	标签属性，字典形式组织，格式：<标签命>.attrs
NavigableString	标签内非属性字符串，<>…</>中字符串，格式：<标签名>.string
Comment	标签内字符串的注释部分，一种特殊的Comment类型