【学习笔记】小白学习python爬虫之BeautifulSoup库入门

最新推荐文章于 2024-09-27 16:14:00 发布

QwQ__

最新推荐文章于 2024-09-27 16:14:00 发布

阅读量274

点赞数

分类专栏： python 文章标签： python BeautifulSoup

本文链接：https://blog.csdn.net/QwQ__/article/details/102881974

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

BeautifulSoup库是用来解析html,xml的功能库

1.导入

from bs4 import BeautifulSoup
soup=BeautifulSoup('<p>data</p>','html.parserr')

data是你需要解析的内容，html也可以换为xml

2.基本元素

Tag标签
Name标签的名字
Attributes标签的属性
NavigableString标签之间的字符串
Comment标签内容中间的注释字符串

3.基于bs4的HTML内容遍历方法

（1）上行遍历

.parent 获得当前节点的父节点
.parents 获得当前节点所有的先辈节点

（2）平行遍历

<是同一父节点下的平行遍历>
.next_sibling
.previous_sibling
<下面两个只能用于循环中>
.next_siblings
.previous_siblings

（3）下行遍历

.contents
.children
.descendants

4.prettify()

.prettify()
通过在每个标签中添加/n换行符，实现输出时HTML文本更易于阅读
..prettify()
针对特定标签tag实现该功能

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

QwQ__

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

学习笔记：Python爬虫之BeautifulSoup库

pythonputao的博客

12-16

445

1. BeautifulSoup 1.1 解析库 1）Python标准库 # 使用方法 BeautifulSoup(markup, "html.parser") # 优势 Python的内置标准库，执行速度适中，文档容错能力强 # 劣势 Python2.7.3 或者 python3.2.2 前的版本容错能力差 2）lxml HTML解析器绝大部分场景都应该使用lxml解析器 # 使用方法 BeautifulSoup(markup, "lxml") # 优势速度快，文档容错能力强

【学习笔记】爬虫（Ⅲ）—— BeautifulSoup和CSS选择器

Eddie_hyh的博客

04-24

1045

爬虫第三部分：beautifulsoup和css选择器

参与评论您还未登录，请先登录后发表或查看评论

python爬虫（BeautifulSoup库入门）

weixin_43983838的博客

02-09

779

最近在学习爬虫，本篇是MOOC中的北理嵩天老师的课程笔记：python网络爬虫与信息提取。适合小白入门BeautifulSoup库，阅读全篇需要6、7分钟。欢迎大佬指正，谢谢哦~ Beautiful Soup(bs4) 1. 基础知识它是一个用于解析html 和 xml 的功能库。 1.1首先，我们知道html文件，是由一对对的<>组成的，所以，我们又可以说，Beautifu...

Python爬虫之 BeautifulSoup解析模块（方法篇）

白帽阿叁的博客

10-06

408

在HTML代码中获取比较复杂的内容时，可以使用find_all()方法、find()方法，以及其他的一些方法，通过调用这些方法，并传入指定的参数，即可灵活的获取标签中内容。一、find_all()方法Beautiful Soup提供了一个find_all()方法，该方法可以获取所有符合条件的内容。在find_all()方法中，常用参数分别是name、attrs以及text，下面将具体介绍重要参数的用法。

python 爬虫库 beautifulsoup4_python 爬虫常用库之 BeautifulSoup 详解

weixin_39533307的博客

01-28

216

python 爬虫常用库之 BeautifulSoup 详解经过了前面几篇文章的学习, 估计你已经会爬不少中小型网站了但是有人说, 前面的正则很难唉, 学不好正则的确很难, 有人说过: 如果一个问题用正则解决, 那么就变成了两个问题所以说学不会是很正常的, 不怕, 除了正则, 我们还可以用另外一个强大的库来解析 html 所以, 今天的主题就是来学习这个强大的库 --BeautifulSoup, ...

python爬虫之BeautifulSoup

2401_84003630的博客

04-21

774

七、输出格式化八、其他特性首先，你需要安装包，这通常可以通过pip完成：如果你想使用的解析器（速度快，效率高），你还需要安装：二、基本使用导入BeautifulSoup类，并加载一个文档。三、导航树结构四、搜索文档树和是BeautifulSoup中的两个常用方法，它们用于搜索文档树并提取信息。基本调用格式如下： 4.1 find_all() 这是的一些基本用法： 4.2 find() 以下是的一些基本用法： 4.3 使用场景通常来说，如果你只需要找到一个特定的元素，比如

Python爬虫小白入门（三）BeautifulSoup库

2201_75362610的博客

07-04

2018

上一篇演示了如何使用requests模块向网站发送http请求，获取到网页的HTML数据。这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据。update on 2016-12-28：之前忘记给BeautifulSoup的官网了，今天补上，顺便再补点BeautifulSoup的用法。update on 2017-08-16：很多网友留言说Unsplash网站改版了，很多内容是动态加载的。

Python爬虫学习笔记

tmyzxy1314的博客

10-17

3085

Python爬虫是一种使用Python编程语言开发的自动化网页抓取工具。它们主要用于从互联网上获取数据，通常用于收集公开信息，如新闻文章、社交媒体帖子、价格信息等。

python爬虫学习笔记之Beautifulsoup模块用法详解

09-17

**Python 爬虫Beautifulsoup模块详解** 在Python爬虫领域，Beautifulsoup是一个不可或缺的工具，它是一个用于从HTML或XML文件中提取数据的库。它提供了简单的API，使得开发者可以方便地对网页进行导航、搜索和修改...

python爬虫必备库BeautifulSoup4学习笔记

05-24

完整介绍了python爬虫必备库BeautifulSoup4库里的几乎所有内容： Table Of Contents - Beautiful Soup 4.2.0 文档 - 对象的种类 - Tag 标签 - Name Tag的名字 - Attributes 操作类似于字典比如id，class_ - ...

python 爬虫学习笔记

03-09

Python 爬虫学习笔记本文将详细介绍 Python 爬虫学习笔记的知识点，涵盖爬虫基础、网络和前端基础、Requests 模块、请求头、GET 和 POST 请求、代理、Cookie 模拟登录、Quote 和 Unquote、登录和获取 Cookie、Post...

简单题101. 对称二叉树（python）20240922

Sep21m_wyy的博客

09-22

387

【代码】简单题101. 对称二叉树（python）20240922。

第二百五十四节 JPA教程 - JPA 多对多映射示例

2301_78772942的博客

09-27

454

第二百五十四节 JPA教程 - JPA 多对多映射示例

python 实现harmonic series调和级数算法

luthane的博客

09-24

881

Hn∑k1n1kHnk1∑nk1其中，𝑛n 是正整数。这个级数是由调和数列（Harmonic sequence）的各元素相加所得的和。调和级数的名字源于泛音及泛音列，即一条振动的弦的泛音的波长依次是基本波长的121314213141等。调和级数的性质发散性：调和级数是一个发散的无穷级数，也就是说，它的部分和随着项数的增加而无限增长。

ubuntu安装libtorch

meng_152634的博客

09-25

693

nouveau是由第三方为NVIDIA显卡开发的一个开源3D驱动，ubuntu默认集成了nouveau驱动，安装NVIDIA驱动前必须禁用系统自带的显卡驱动nouveau，否则安装NVIDIA驱动时会报错。，一定要确定好安装的CUDA版本是否支持显卡的算力，否则安装成功也无法使用GPU加速。如果cmake版本低于3.18，会出现下面的报错，这是由于低于3.18的cmake不支持CUDA17的编译，需要更新cmake版本。因为安装的CUDA版本为12.1，这里选择最新版的CUDNN 9.4.0进行安装。

Python 类class的用法详解

十七次方

09-22

809

在 Python 中，使用 class 关键字来定义一个类。类定义通常包括类变量、实例变量和方法。

Python 高阶内容：套娃式装饰器巧妙为函数增加功能

敲代码别忘了喝上一杯凉白开。

09-23

560

装饰器是 Python 中一种非常强大且灵活的工具，能够在不修改函数本身的情况下，为函数增加额外的功能。本文介绍了装饰器的基本概念及应用，通过实例演示如何在函数执行前后添加额外操作，如鉴权、数据验证等，类似“套娃”般层层嵌套。文章还通过代码示例展示了如何定义和使用装饰器，以及如何将装饰器与实际业务逻辑结合，实现灵活的功能扩展。这种设计模式不仅可以提升代码的可读性和可维护性，还可以有效减少代码的冗余。掌握装饰器的用法，将为你的 Python 编程技巧增添更多亮点。

Python/大数据/机器识别毕业设计选题题目推荐