python网络爬虫（三）Beautiful Soup库介绍

最新推荐文章于 2024-04-20 18:29:21 发布

Kitucs

最新推荐文章于 2024-04-20 18:29:21 发布

阅读量166

点赞数

分类专栏： python爬虫文章标签： python

本文链接：https://blog.csdn.net/Kitucs/article/details/103605577

版权

python爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

0、作用

一个简单的html网页源代码：

<html>
	<head>
		<title>This is a python demo page</title>
	</head>
	<body>
		<p class="title">
			<b>The demo python introduces several python courses.</b>
		</p>
		<p class=“course”>Python is a wonderful general‐purpose programming language.You can learn Python from novice to professional by tracking the following courses:
			<a href="http://www.icourse163.org/course/BIT‐268001" class="py1"id="link1">Basic Python</a> and
			<a href="http://www.icourse163.org/course/BIT‐1001870001" class="py2"id="link2">Advanced Python</a>.
		</p>
	</body>
</html>

将其画成一棵标签树

Beautiful Soup的作用就是将爬取的信息整理成可视化良好的信息，导库的方法如下：

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>data</p>', 'html.parser')

1、基本元素

在这里插入图片描述

基本元素	说明
Tag	标签最基本的信息组织单元，分别用<>和</>标明开头和结尾
Name	标签的名字，上图中tag的名字是’p’，格式：<tag>.name
Attributes	标签的属性，字典形式组织，格式：<tag>.attrs
NavigableString	标签内非属性字符串，<>…</>中字符串，格式：<tag>.string
Comment	标签内字符串的注释部分，一种特殊的Comment类型

2、内容的遍历

在这里插入图片描述

（1）下行遍历

属性	说明
.contents	子节点的列表，将所有儿子节点存入列表
.children	子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
.descendants	子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

在这里插入图片描述

（2）上行遍历

属性	说明
.parent	节点的父亲标签
.parents	节点先辈标签的迭代类型，用于循环遍历先辈节点

在这里插入图片描述

（3）平行遍历

属性	说明
.next_sibling	返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling	返回按照HTML文本顺序的上一个平行节点标签
.next_siblings	迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
.previous_siblings	迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

在这里插入图片描述

3、prettify()

print(soup.prettify())

Kitucs

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python网络爬虫（三）Beautiful Soup库介绍

文章目录0、作用1、基本元素2、内容的遍历（1）下行遍历（2）上行遍历（3）平行遍历3、prettify()0、作用一个简单的html网页源代码：<html> <head> <title>This is a python demo page</title> </head> <body> <p cl...
复制链接

扫一扫

专栏目录