Beautiful Soup库——HTML/XML页面解析

一、Beautiful Soup库的安装和导入

	————Beautiful Soup库是解析、遍历、维护“标签树”的功能库	
  1. 安装:
    Win平台: “以管理员身份运行”cmd 执行pip install beautifulsoup4

  2. 模块导入
    Beautiful Soup库,也叫beautifulsoup4 或bs4
    约定引用方式如下,即主要是用BeautifulSoup类


from bs4 import BeautifulSoup 引入bs4库的BeautifulSoup类功能模块

import bs4		引入整个bs4库

二、BeautifulSoup类解析基本原理

在这里插入图片描述
通过解析器,解析HTML/XML的标签树,从而取得想要的信息。
解析器:
在这里插入图片描述

三、BeautifulSoup类的基本元素

在这里插入图片描述
在这里插入图片描述

四、基于bs4库的HTML内容遍历方法(调用方式:soup.标签.属性)

在这里插入图片描述

  1. 标签树的下行遍历

在这里插入图片描述

遍历儿子节点
for	child in soup.body.children:
	print(child)
	
遍历子孙节点
for	child in soup.body.descendants:
	print(child)

  1. 标签树的上行遍历

在这里插入图片描述

注意
在这里插入图片描述
3.标签树的平行遍历
在这里插入图片描述
注意
在这里插入图片描述

五、基于bs4库的HTML格式输出

  1. bs4库的prettify()方法(调用方式:soup.prettify()
    在这里插入图片描述
  2. bs4库的编码
    在这里插入图片描述

六、bs4库提供的查找方法

<>.find_all(name,attrs,recursive, string, **kwargs)

  1. name : 对标签名称的检索字符串
    在这里插入图片描述

  2. attrs: 对标签属性值的检索字符串,可标注属性检索
    如: id="", class=""
    在这里插入图片描述

  3. recursive: 是否对子孙全部检索,默认True
    在这里插入图片描述

  4. string: <>…</>中字符串区域的检索字符串
    返回一个列表类型,存储查找的结果
    在这里插入图片描述

注意:因为查找函数较常用,故:
在这里插入图片描述在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值