python之BeautifulSoup4模块

BeautifulSoup是用于HTML/XML数据解析的库,尤其在数据筛选需求不高的项目中广泛应用。本文介绍了BeautifulSoup4(BS4)的基本概念、安装方法及常见用法,包括获取对象和搜索方法。在搜索方法中,详细讲解了find_all和find方法的参数和用法。
摘要由CSDN通过智能技术生成

目录

概述

安装模块

常见用法

获得对象

搜索方法


概述

       BeautifulSoup是一种专门用于进行HTML/XML数据解析的一种描述语言,可以很好的分析和筛选HTML/XML这样的标记文档中的指定规则数据。在数据筛选过程中其基础技术是通过封装HTML DOM树实现的一种DOM操作,通过加载网页文档对象的形式,从文档对象树模型中获取目标数据。
       BeautifulSoup操作简单易于上手,在很多对于数据筛选性能要求并不是特别苛刻的项目中经常使用,目前市场流行的操作版本是BeautifulSoup4,经常称BS4。

        Xpath和BeautifulSoup都是基于DOM的一种操作模式。不同点在于加载文档对象模型DOM时出现的文档节点遍历查询操作过程,Xpath在进行遍历操作时针对描述语言指定的语法结构进行局部DOM对象树的遍历得到具体的数据,但是BS4在操作过程中,会将整个文档树进行加载然后进行查询匹配操作,使用过程中消耗资源较多,处理性能相对Xpath较低,但优势在于足够简单。       

安装模块

pip install beautifulsoup4

è¿éåå¾çæè¿°

常见用法

获得对象

一般BS4将HTML文档对象会转换成如下四种类型组合的文档树:
* Tag:标签对象

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值