深入理解BeautifulSoup

最新推荐文章于 2023-08-09 11:36:04 发布

小灵子2050

最新推荐文章于 2023-08-09 11:36:04 发布

阅读量512

点赞数

分类专栏：爬虫 Python BeautifulSoup 文章标签： python 正则表达式 css https

本文链接：https://blog.csdn.net/qq_41332002/article/details/103599985

版权

本文详细探讨了BeautifulSoup库在Python中的使用，包括find与find_all方法支持正则表达式筛选，tag.text属性的优势，以及如何处理NavigableString和Comment对象。通过对HTML文档的解析，介绍了如何高效地查找和操作元素，强调了CSS Selector在BeautifulSoup中的核心地位。

摘要由CSDN通过智能技术生成

我生也有涯，而知也无涯，以有涯随无涯，殆矣!——庄子

如同Python的所有库一样，BeautifulSoup易于上手，想要如臂使指却要下一番功夫。我们不妨通过一个例子来细细品味几个有趣的细节，来看看我们是否真的了解了BeautifulSoup。

初识——BeautifulSoup是通过将网页数据解析成搜索树来加速元素查找的python 库
BeautifulSoup总结下来两种搜索文档树的方法最重要：find_all(name,attrs,string)和select(selector)
例子地址——URL:https://www.itcodemonkey.com/article/14987.html
这个例子，我们随后会发现比百度文档简单很多

import requests
from bs4 import BeautifulSoup as Soup

resp = requests.get('https://www.itcodemonkey.com/article/14987.html')

soup = Soup(resp.text,'lxml')

soup.title

<title>一个超有意思的 Python 综合能力测试网站 - IT程序猿 </title>

soup.title.name #访问标签名而不是标签的name属性，即使有name属性，也需要通过get()提取

'title'

soup.title.attrs #title标签没有任何属性

{}

soup.title.text

'\u200b一个超有意思的 Python 综合能力测试网站 - IT程序猿 '

soup.title.text[1:]

'一个超有意思的 Python 综合能力测试网站 - IT程序猿 '

tags_search_by_attrs = soup.find_all(attrs={
   'class':'kq__article-power'})

tags_search_by_attrs

[<div class="kq__article-power">
 <p>来自：<a href="https://mp.weixin.qq.com/s/x5n2YeK5J56h-VAzb1Cejw" target="_blank">高级农民工</a>（微信号：Mocun6），作者：苏克1900</p> </div>]

find 与 find_all 方法也支持筛选条件为正则表达式的情况

import re

tags_search_by_string = soup.find_all(string=re.compile('power'))

tags_search_by_string

[]

tags_search_by_string = soup.find_all(string=re.compile('作者：苏克1900'))

tags_search_by_string

['（微信号：Mocun6），作者：苏克1900']

BeautifulSoup有NavigableString对象,找到的就是文本内容对象而不是包含此

最低0.47元/天解锁文章

小灵子2050

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深入理解BeautifulSoup

我生也有涯，而知也无涯，以有涯随无涯，殆矣!——庄子如同Python的所有库一样，BeautifulSoup易于上手，想要如臂使指却要下一番功夫。我们不妨通过一个例子来细细品味几个有趣的细节，来看看我们是否真的了解了BeautifulSoup。初识——BeautifulSoup通过将html文档解析成文档搜索树来实现高效搜索BeautifulSoup总结下来两种搜索文档树的方法最重要：...
复制链接

扫一扫