【Python爬虫学习】二、BeautifulSoup

最新推荐文章于 2024-05-07 01:00:00 发布

tao1617

最新推荐文章于 2024-05-07 01:00:00 发布

阅读量215

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/Guanhai1617/article/details/104110178

版权

笔记专栏收录该内容

14 篇文章 2 订阅

订阅专栏

BeautifulSoup库（bs4）是解析、遍历、维护变签树的功能库

BeautifulSoup测试运行

import requests
from bs4 import BeautifulSoup

url = "http://python123.io/ws/demo.html"
r = requests.get(url)
demo = r.text

soup = BeautifulSoup(demo,"html.parser")#为demo指定html的解析器
print(soup.prettify())

BeautifulSoup属性

BeautifulSoup遍历

BeautifulSoup下行遍历

contents返回列表类型

children和descendants返回迭代类型，只能用于 for循环

#标签树的下行遍历
#儿子节点
for child in soup.body.children:
    print(child)

#儿孙节点
for child in soup.body.descendants:
    print(child)

BeautifulSoup上行遍历

#标签树的上行遍历
#父亲节点
soup.title.parent

#父祖节点
for parent in soup.a.parents:
    if parent is None:
        print(parent)
    else:
        print(parent.name)

BeautifulSoup平行遍历

平行遍历条件：

#标签树的平行遍历
soup.a.next_sibling

for sibling in soup.a.next_siblings:
    print(sibling)

基于BS4 库的HTML内容查找方法

find_all

find扩展方法

提取所有链接

#提取所有链接
for link in soup.find_all('a'):
    print(link.get("href"))

打印所有标签名称

#打印所有标签名称
for tag in soup.find_all(True):
    print(tag.name)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

tao1617

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python爬虫信息标记和信息提取

routing666的博客

07-27

209

三种： XML JSON 【无论是键还是值都要有双引号】多值：嵌套：【JSON中无法添加注释】 YAML 【没有双引号】嵌套（用缩进表达）并列：整块数据：| 信息提取实例：解析提取所有的URL链接 >>> import requests &...

python爬虫学习笔记之Beautifulsoup模块用法详解

09-17

在Python爬虫领域，Beautifulsoup是一个不可或缺的工具，它是一个用于从HTML或XML文件中提取数据的库。它提供了简单的API，使得开发者可以方便地对网页进行导航、搜索和修改。本文将详细介绍Beautifulsoup模块的基本...

参与评论您还未登录，请先登录后发表或查看评论

基于bs4库的html内容查找方法

giun的博客

01-09

3294

一、查找demo里的a标签里的href的内容 from bs4 import BeautifulSoup import requests r = requests.get("http://python123.io/ws/demo.html") demo = r.text soup = BeautifulSoup(demo,"html.parser") for link in soup.find_...

爬虫2解析HTML页面-第三方库Beautiful Soup

ajx10132的博客

01-07

1133

1.安装BeautifulSoup–pip install beautifulSoup4 Beautiful Soup库也叫beautifulsoup4或bs4 2.解析demo页面 import requests r=requests.get(“http://python123.io/ws/demo.html”) demo=r.text from bs4 import BeautifulSoup...

Python网络爬虫与信息提取(二)：网络爬虫之提取

肖睿的博客

10-03

371

Beautiful Soup库可对HTML/XML格式进行解析并提取相关信息安装: pip install beautifulsoup4小测：>>> import requests >>> r = requests.get("http://python123.io/ws/demo.html") >>> r.text >>> demo = r.text >>> from bs4 import Bea

python爬虫学习笔记--BeautifulSoup （二）（三种遍历类型）

Changod的博客

04-27

783

demo = ("http://python123.io/ws/demo.html").text 标签树遍历方式：下行遍历： .content() // 当前节点子节点的列表，将<tag>所有儿子节点存入列表 .children() // 子节点的迭代类型，循环编列儿子节点（类似content） .descendants() // 获取当前节点所有后续节点的信息（迭代类...

python网络爬虫学习——BeautifulSoup库

最新发布

maizeman126的博客

05-07

531

假如返回结果是多个节点的生成器，则能够转为列表后取出某个元素，再调用string、attrs等属性取得对应节点的文本和属性。运用import从bs4中导入BeautifulSoup库，利用open函数打开存放在本地的网页文件所在位置，随后使用BeautifulSoup解析网页，解析完毕打印相应的网页数据。在做选择的时候，有时候不能做到一步就选到想要的节点元素，需要先选中某个节点元素，而后以它为基准再选择它的子节点、父节点、兄弟节点等。要获得某个节点元素的父节点，可以调用parent属性。

Python爬虫：BeautifulSoup库

不怕猫的耗子A

08-12

2万+

Beautiful Soup的简介 Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下： 1、Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。 2、Beautiful Soup自动将输...

python爬虫学习之解析_BeautifulSoup

weixin_73002278的博客

01-28

1116

注：Python3.10+，使用 Beautiful Soup 时出现错误“AttributeError 'collections' has no attribute 'Callable'”。在 python 3.10+ 中，collections.Callable已移至collections.abc.Callable。故推荐用Python3.10以下版本。

Python之爬虫之BeautifulSoup学习

shy的博客

10-01

2531

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。由于 BeautifulSoup 是基于 Python，所以相对来说速度会比另一个 Xpath 会慢点，但是其功能也是非常的强大学习资料中文官网：https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

python爬虫--beautifulsoup模块简介

Abtxr的博客

02-09

1389

python爬虫--超级详细的BeautifulSoup使用方法

python爬虫必备库BeautifulSoup4学习笔记

05-24

完整介绍了python爬虫必备库BeautifulSoup4库里的几乎所有内容： Table Of Contents - Beautiful Soup 4.2.0 文档 - 对象的种类 - Tag 标签 - Name Tag的名字 - Attributes 操作类似于字典比如id，class_ - ...

Python爬虫实现使用beautifulSoup4爬取名言网功能案例

09-18

总的来说，这个案例提供了一个完整的Python爬虫实践示例，涵盖了从数据抓取到存储的全过程，对于初学者来说，这是一个很好的学习资源，可以帮助理解Python爬虫的基本原理和应用。通过这个案例，你可以了解到如何使用...

Python爬虫包BeautifulSoup简介与安装（一）

09-20

Python爬虫包BeautifulSoup简介与安装的知识点主要涉及以下几个方面： 1. BeautifulSoup概述： BeautifulSoup是Python的一个库，主要用于从网页中提取和解析HTML/XML文档数据。它提供简单直观的API，允许用户轻松地...

【Python爬虫学习】七、淘宝商品价格爬取（成功爬取）

热门推荐

Guanhai1617的博客

01-31

2万+

写在前面：修改request的headers属性，可以跳过登录界面，爬取成功功能描述：目标：获取淘宝搜索页面信息，提取其中商品的名称和价格技术路线：Requests-Re 接口描述：搜索接口：https://s.taobao.com/search?q=篮球翻页接口：第二页https://s.taobao.com/search?q=篮球&s=44 ...

【带宽】Hz与bps的辩证统一

Guanhai1617的博客

12-27

8163

带宽是计算机世界中的高频词汇，一会在计算机组成中遇到，一会又在通信中遇到，直到某一天突然发现【带宽】一次脚踏两只船？在计算机组成和通讯中表示不同的含义？原来: 在模拟信号系统，是指在固定的时间可传输的资料数量，亦即在传输管道中可以传递数据的能力。通常以每秒传送周期或赫兹(Hz)来表示。在数字信号设备中，带宽指单位时间能通过链路的数据量。通常以bps来表示，即每秒可传输之位数。 ...

【Python爬虫学习】八、股票数据定向爬虫（2020年1月31日成功爬取中财网，百度股市通web版404了）

Guanhai1617的博客

02-01

2462

功能描述: 目标：获取股票的名称和交易信息输出：保存到文件中程序结构设计：步骤1：从中财网http://quote.cfi.cn/stockList.aspx获取股票列表步骤2：根据股票列表获取股票的url，通过每个url获取股票信息步骤3：将结果保存到文件中代码实现： #股票数据定向爬虫 import re import requests from ...

Windows10安装docker遇到Hyper-V启用失败解决办法整理

Guanhai1617的博客

04-16

2227

本人电脑是windows10家庭版，为了安装docker升级为了专业版，docker可以安装成功，但需要启用Hyper-V，但是在选择“立即重新启动”后，计算机在重启并配置文件到100%时就显示“无法配置更新，正在撤销配置”，也就是说，重启仍然无法启用Hyper 折腾了一天，也搜到了几篇解决方案，链接如下供参考，解决未果 https://blog.csdn.net/qq_43090889/article/details/96007729 https://blog.csdn.net/qq_38604355

【Python】yield生成器

Guanhai1617的博客

02-01

1575

yield——生成器 1.生成器是一个不断产生值的函数，包含yield语句的函数是一个生成器 2.生成器每次产生一个值后，该函数将被冻结，不在执行未完成的语句，直到被再次唤醒后在从刚才的位置继续执行，产生下一个值，如此循环往复，每次只计算生成一个值 3.yield通常配合for循环使用，为for循环源源不断的每次一个的输出值简而言之：生成器每次调用只蹦出一个值，随后死掉，激活后在蹦出下...

Python爬虫入门：BeautifulSoup实战解析

在这篇Python爬虫入门教程中，我们首先会学习到的是对网页的基本理解。网页通常由HTML、CSS和JavaScript三大部分构成。HTML作为网页的骨架，定义了网页的基本结构，例如标题、段落、列表和链接等。CSS则负责网页的...