python网络爬虫笔记03：基于BS4的网页解析案例

最新推荐文章于 2024-05-27 11:18:02 发布

小薛引路

最新推荐文章于 2024-05-27 11:18:02 发布

阅读量482

点赞数

分类专栏： python网络爬虫笔记

本文链接：https://blog.csdn.net/m1m2m3mmm/article/details/117771641

版权

python网络爬虫笔记专栏收录该内容

21 篇文章 2 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

这篇博客介绍了HTML基础和BeautifulSoup（BS4）的使用，通过实例展示了如何利用BS4解析网页内容，包括HTML标签的结构和BS4的find方法。此外，还分享了如何爬取优美图库的图片，并提到了在PyCharm中避免因大量图片下载导致的文件索引卡顿问题。

摘要由CSDN通过智能技术生成

1 HTML基础与BS4

2. BS4测试案例

3 爬取优美图库的图片

1 HTML基础与BS4

<标签属性=“属性值”>被标记的内容</标签>

BS4解析的原理就是找到唯一的标签标识，从而找到感兴趣的内容

pip installl bs4

2. BS4测试案例

首先，将源码交给BeautifulSoup对象，

page = BeautifulSoup(resp.text, 'html.parser')

如果不指定html.parser参数，则报如下警告：

UserWarning: No parser was explicitly specified, so I'm using the best available HTML parser for this system ("lxml"). This usually isn't a problem, but if you run this code on another system, or in a different virtual environment, it may use a different parser and behave differently.

从page中查找数据，使用find方法，具体使用有以下两种：

page.find("table", class_="hq_table") # 注意由于class是python的关键字，为避免冲突，在其后添加

了解本专栏

超级会员免费看

小薛引路

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
2
评论
python网络爬虫笔记03：基于BS4的网页解析案例

BS4基础及测试案例
复制链接

扫一扫

专栏目录