BeautifulSoup
-
BeautifulSoup是Python独有.简单便捷和高效
-
安装bs4
pip install bs4 # pip install lxml bs4用到lxml库,如果没有安装过lxml库的时候,需要安装一下 -
代码使用流程
-
1、导包
from bs4 import BeautifulSoup -
2、创建BeautifulSoup对象
Beautiful('网络请求到的页面数据','lxml') -
3、使用属性和方法
(1)根据标签名查找 - soup.a 只能找到第一个符合要求的标签 (2)获取属性 - soup.a.attrs 获取a所有的属性和属性值,返回一个字典 - soup.a.attrs['href'] 获取href属性 - soup.a['href'] 也可简写为这种形式 (3)获取内容 - soup.a.string /text() - soup.a.text //text() - soup.a.get_text() //text() 【注意】如果标签还有标签,那么string获取到的结果为None,而其它两个,可以获取文本内容 (4)find:找到第一个符合要求的标签 - soup.find(
-

本文介绍了Python中用于解析HTML和XML文档的库BeautifulSoup,它以其简单易用和高效的特点受到开发者青睐。通过安装bs4库,然后遵循导入、创建BeautifulSoup对象、使用其属性和方法的步骤,可以轻松进行网页数据抓取和处理。
最低0.47元/天 解锁文章
794

被折叠的 条评论
为什么被折叠?



