python爬虫学习

最新推荐文章于 2024-07-28 15:46:11 发布

learn_is_happy

最新推荐文章于 2024-07-28 15:46:11 发布

阅读量204

点赞数

文章标签： python 爬虫

本文链接：https://blog.csdn.net/learn_is_happy/article/details/78767483

版权

学习笔记专栏收录该内容

23 篇文章 0 订阅

订阅专栏

python爬虫学习

一、Beautiful Soup库

1、引用
from bs4 import BeautifulSoup

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>data</p>', 'html.parser')

2、BeautifulSoup类的基本元素

Tag 标签，最基本的信息组织单元，分别用<>和

for child in soup.body.children:
    print(child)
for child in soup.body.descendants:
    print(child)
遍历儿子节点
遍历子孙节点

**注意！！！下行遍历需要增加一个 if isinstance(child, bs4.element.Tag):
筛掉 \n换行符等其他不是标签的元素**

5、上行遍历
.parent
.parents

6、平行遍历
.next_sibling 返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling 返回按照HTML文本顺序的上一个平行节点标签
.next_siblings 迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
.previous_siblings 迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

标签树的平行遍历
for sibling in soup.a.next_sibling:
print(sibling)
for sibling in soup.a.previous_sibling:
print(sibling)
遍历后续节点
遍历前续节点

注意！！！平行遍历是遍历节点，所以包括字符串等

7、bs4的prettify()方法

learn_is_happy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫学习

python爬虫学习一、Beautiful Soup库1、引用 from bs4 import BeautifulSoupfrom bs4 import BeautifulSoupsoup = BeautifulSoup('<p>data</p>', 'html.parser')2、BeautifulSoup类的基本元素Tag 标签，最基本的信息组织单元，分别用<>和for child in s
复制链接

扫一扫

专栏目录