python爬虫由浅入深6--基于bs4库的HTML内容的查找方法

最新推荐文章于 2024-02-29 10:51:14 发布

王师北

最新推荐文章于 2024-02-29 10:51:14 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/rytyy/article/details/78106173

版权

基于bs4库的HTML内容的查找方法：

实例：提取http://python123.io/ws/demo.html链接中的所有url

思路：1.搜索所有的<a>标签

2.解析<a>标签格式，提取href后的链接内容

实现代码如下：

import requests
from bs4 import BeautifulSoup
r = requests.get("http://python123.io/ws/demo.html")
demo = r.text
soup = BeautifulSoup(demo,"html.parser")
for link in soup.find_all('a'):
    print(link.get('href'))

此处用到的就是传说中的find_all()方法！！！

关于find_all()的用法，下面细细道来~~

<>.find_all(name,attrs,recursive,string,**kwargs) 函数返回的是一个列表类型，存储查找结果

参数：

name:对标签名称的检索字符串，返回一个列表类型。。name可以是一个字符串，也可以是一个包含多个标签名称的列表类型

attrs：对标签属性值的检索字符串，可以标注属性检索

recursive：是否对子孙的全部检索，默认为True

string：<>....</>中字符区域的检索字符串

find_all()的简化形式

<tag>(...) 等价于<tag>.find_all(...)

soup(..) 等价于soup.find_all(...)

find_all()的扩展方法，如下

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

王师北

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python爬虫之bs4

weixin_54812545的博客

06-17

875

Python爬虫之bs4一、聚焦爬虫：爬取页面中指定的页面内容二、数据解析分类:三、数据解析原理概述:四、bs4进行数据解析：1.数据解析的原理：2.bs4数据解析的原理：3.环境安装：4.如何实例化BeautifulSoup对象一、聚焦爬虫：爬取页面中指定的页面内容编码流程指定url 发起请求获取响应数据数据解析持久化存储二、数据解析分类: 1.正则 2.bs4 3.xpath（***) 三、数据解析原理概述: 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储 1.

Python爬虫之bs4库

热门推荐

qq_33995765的博客

03-22

1万+

python爬虫常用库之bs4 bs4全名BeautifulSoup，是编写python爬虫常用库之一，主要用来解析html标签。 1.安装 pip install beautifulsoup4 或 python -m pip install beautifulsoup4 2.基本使用方法 bs4中最基础的使用是BeautifulSoup类的使用，注意大小写哦

参与评论您还未登录，请先登录后发表或查看评论

【Python】【进阶篇】二十二、Python爬虫的BS4解析库

deepboat的博客

04-18

1207

【Python】【进阶篇】二十二、Python爬虫的BS4解析库

Python爬虫--- 1.2 BS4库的安装与使用

weixin_34380296的博客

12-17

265

原文链接https://www.fkomm.cn/article/... Beautiful Soup 库一般被称为bs4库，支持Python3，是我们写爬虫非常好的第三方库。因用起来十分的简便流畅。所以也被人叫做“美味汤”。目前bs4库的最新版本是4.60。下文会介绍该库的最基本的使用，具体详细的细节还是要看：官方文档 bs4库的安装 ...

python bs4库_Python爬虫之bs4库-Go语言中文社区

weixin_30017913的博客

03-01

294

python爬虫常用库之bs4bs4全名BeautifulSoup，是编写python爬虫常用库之一，主要用来解析html标签。1.安装pip install beautifulsoup4或python -m pip install beautifulsoup42.基本使用方法bs4中最基础的使用是BeautifulSoup类的使用，注意大小写哦。用BeautifulSoup来解析html:fro...

python爬虫8：bs4库

weixin_46676835的博客

08-19

2153

python爬虫8：bs4库

Python爬虫----bs4库中的BeautifulSoup基础运用+爬取招商银行商品信息实例运用

whelloworldw的博客

05-29

1026

BeautifulSoup有五种基本元素，分别是标签（Tag），标签名（Name），标签的属性（Attribute），标签内非属性字符串（NavigableString）以及标签内的注释部分（Comment）。理解好BeautifulSoup库的五种基本元素是使用BeautifulSoup的基础。然后就是html页面中标签的解析（1）find()方法：用于查找符合查询条件的标签节点（2）find_all() 方法：查找所有符合查询条件的标签节点，并返回一个列表。

百度飞桨-Python小白逆袭大神-结营心得

qq_39330787的博客

05-04

392

@[TOC]百度飞桨Python小白逆袭大神结营心得百度飞桨-Python小白逆袭大神-结营心得很开心参加了这次百度飞桨的python小白逆袭大神的课程，课程内容从Python入手，绝对0基础，老师由浅入深讲解，十分清晰，课程设计也特别有层次感，架构清晰，收获颇丰，总的收获可以概括为以下几点。一.爬虫任务：完成《青春有你2》选手图片爬取，打印爬取的所有图片的绝对路径，以及爬取的图片总数 ...

python入门之爬虫篇爬取图片，文章，网页

weixin_42636275的博客

03-12

2025

一，首先看看Python是如何简单的爬取网页的 1，准备工作项目用的BeautifulSoup4和chardet模块属于三方扩展包，如果没有请自行pip安装，我是用pycharm来做的安装，下面简单讲下用pycharm安装chardet和BeautifulSoup4 在pycharm的设置里按照下图的步骤操作如下图搜索你要的扩展类库，如我们这里需要安装chardet直接搜索就行，然后点击in...

【Python网络编程实践】：深入urllib2：20个实用技巧助你打造高效爬虫（urllib2应用全攻略）

![【Python网络编程实践】：深入urllib2：20个实用技巧助你打造高效爬虫（urllib2应用全攻略）]...# 1. Python网络编程基础和urllib2库概述随着Python编程语言在网络技术领域的广泛应用，网络编程

Python——爬取百度百科关键词1000个相关网页

weixin_30384217的博客

04-13

493

Python简单爬虫——爬取百度百科关键词1000个相关网页——标题和简介网站爬虫由浅入深：慢慢来分析：链接的URL分析：数据格式：爬虫基本架构模型：本爬虫架构：源代码： # co...

【冰糖Python】爬虫 - 从入门到入门：bs4库

冰糖的小屋

08-15

283

BeautifulSoup是一个可以从HTML或XML文档中提取数据的Python库，可用于解析HTML、HTML5、XML类型的文件（默认作为HTML文档），目前使用的BeautifulSoup4版本集成在bs4库中，因此使用前需要安装bs4。在我们使用Requests提取到网页数据后，便可以使用该库对网页数据进行解析，从而获得所需内容，文后给出具体实例。（一）BeautifulSoup 解析器 BeautifulSoup支持Python标准库中的HTML解析器，还提供了第三方的解析器，比如XM

14.使用Python bs4模块解析HTML

weixin_43292784的博客

04-13

1140

使用Python bs4模块解析HTML

python——爬虫学习——基于bs4库的HTML内容查找方法-(3)

Zach_z的博客

04-27

1344

python爬虫

爬虫学习——bs4库的使用

m0_63248870的博客

12-21

3613

bs4也就是beautifulsoup4，是python解析html文件的一个好用的第三方库，常被用于爬虫。

Python BS4解析库用法详解

最新发布

weixin_68789096的博客

02-29

1719

Beautiful Soup 简称 BS4（其中 4 表示版本号）是一个 Python 第三方库，它可以从 HTML 或 XML 文档中快速地提取指定的数据。Beautiful Soup 语法简单，使用方便，并且容易理解.图1：BS4官网LOGO图。

爬虫-基于bs4库的HTML内容查找方法

weixin_30535913的博客

03-25

136

bs4有一个find_all(name,attrs,recursive,string,**kwargs)方法，返回一个列表类型，存储查找的结果 name 对标签名称的检索字符串 attrs 对标签属性值的检索字符串，可标注属性检索，可查找某标签中是否含有特定的字符串 recursive 是否对子孙全部检索，默认True string <>...</>中字符串区域的...

python_基于bs4html内容遍历

Py_CCY的博客

07-02

1409

标签树的下行遍历 .contents（内容）子节点的列表，将所有的儿子节点存入列表 .childern（孩子）子节点的迭代类型，与.contents类似，用于循环遍历儿子节点 .descendants （后裔）子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

谈谈爬虫中定位元素的常见方法

python爬虫人工智能大数据

11-02

8230

前言我们知道，不管是爬虫还是自动化测试，元素定位是最基本而且必须的一个步骤。今天我们就来讲讲怎么定位元素。爬虫中定位元素爬虫中怎么定位元素呢？常见的有以下几种：BeautifulSoup find 定位BeautifulSoup css 定位BeautifulSoup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库，我们需要安装并导入这个库。frombs4import...

Python爬虫新宠：requests-html详解

在Python爬虫领域，requests库因其简单易用而备受青睐。然而，随着网页技术的发展，许多网站开始使用JavaScript动态加载内容，这使得仅依赖requests库的爬虫无法获取完整信息。为了解决这个问题，requests库的作者...