爬虫学习——爬虫之soup.select()用法浅析

最新推荐文章于 2025-03-06 23:42:47 发布

geerniya

最新推荐文章于 2025-03-06 23:42:47 发布

阅读量4.2w

点赞数 11

分类专栏：爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/geerniya/article/details/77842421

版权

爬虫专栏收录该内容

3 篇文章

订阅专栏

在学习Python爬虫过程中，主要用两个模块：

import requests
from bs4 import BeautifulSoup

requests用于将链接转化成html语言，而BeautifulSoup则用于查找需要的内容。

最开始一般写成如下格式：

res = requests.get('https://www.qiushibaike.com/hot/#')  #以糗事百科为例
soup = BeautifulSoup(res,'html.parser')

通过采用soup.select()方法，可以得到所需的内容。
其中关键点在于，对于所需内容的精准定位，通过（）内的语句来实现：

1、class
对于html内的内容，可以通过class来进行定位，一般形式为：

soup.selecet('.class')

这样可以定位到所有class内容的内容。

2、id
id在一个html中是唯一的，因此可以通过id来找寻唯一的内容，形式为：

soup.select('#id')

3、标签
标签的话，可以直接寻找：

soup.select('a')

4、组合查找
某一类下的某个标签中的内容，采用空格隔开：

soup.select('.class a')

这些只是最基本的用法，在以后的学习过程中还会继续补充。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

geerniya

关注关注

11
点赞
踩
73

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

BeautifulSoup的soup.find_all（）与 soup.select（）赏析

linershigebaobao的博客

06-29

8170

如果我们用BeautifulSoup去解析网页来爬虫，那么90%以上需要用到find_all（），当然如果对CSS更为了解，其实select也是一种相当不错的选择。 from bs4 import BeautifulSoup soup = BeautifulSoup（response.text， 'lxml'）这是我们常用的炖汤程序，而对于汤的赏析，就需要用soup.find_all（），soup.select（）去细细品味其中滋味。 1、find_all（） find_all（tag，a...

python soup.find_初识python 之爬虫：BeautifulSoup 的 find、find_all、select 方法

weixin_39637975的博客

12-08

3096

from bs4 import BeautifulSouplxml 以lxml形式解析html，例：BeautifulSoup(html,'lxml') #注：html5lib 容错率最高find 返回找到的第一个标签find_all 以list的形式返回找到的所有标签limit 指定返回的标签个数attrs 将标签属性放到一个字典中string 获取标签下的非标签字符串(值), 返回字符串st...

2 条评论您还未登录，请先登录后发表或查看评论

python爬虫之BeautifulSoup 使用select方法详解

09-21

本篇文章主要介绍了python爬虫之BeautifulSoup 使用select方法详解，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

深入解析 BeautifulSoup 中的 select() 和 select_one() 函数

热门推荐

wei_lin的博客

10-07

3万+

soup.select()在源代码中的原型为: select(self, selector, namespaces=None, limit=None, **kwargs) 功能：查找html中我们所需要的内容我们主要使用的参数是selector，其定义为”包含CSS选择器的字符串“。关于CCS，也需要了解一些概念，参考CCS语法与CSS Id 和 Class。我们在写 CSS 时，标签名不加...

BeautifulSoup 使用select方法详解

天才幻想家

07-03

2365

html = """ <html><head><title>The Dormouse's story</title></head> <body> The Dormouse's story...

Beautiful Soup 之 select详解

从零开始学习python --zeropython

07-06

1203

1 [code language="python"] ### select 传入tag标签 1. soup.select("title"...

Java爬虫入门——使用Jsoup解析HTML页面.zip

03-08

如果您下载了本程序，但是该程序无法运行，或者您不会部署，那么您可以选择退款或者寻求我们的帮助（如果找我们帮助的...然而，使用爬虫需要遵守法律和伦理规范，尊重网站的使用政策，并确保对被访问网站的服务器负责。

Python3爬虫学习之爬虫利器Beautiful Soup用法分析

01-21

本文实例讲述了Python3爬虫学习之爬虫利器Beautiful Soup用法。分享给大家供大家参考，具体如下：爬虫利器Beautiful Soup 前面一篇说到通过urllib.request模块可以将网页当作本地文件来读取，那么获得网页的html...

soup.select()写的详细清楚

莲君

01-07

4698

https://www.cnblogs.com/yizhenfeng168/p/6979339.html

soup.select()方法详解

XTY00的博客

11-12

9501

1 html = """ 2 <html><head><title>The Dormouse's story</title></head> 3 <body> 4 &

python从web抓取信息（爬虫中soup.select()与soup.find_all()对比）

qq_45894443的博客

08-11

3552

1)利用 webbrowser 模块打开指定的URL 从sys.argv读取命令行参数或从剪切板粘贴内容用webbrowser.open()函数打开网页 import webbrowser, sys, pyperclip if len(sys.argv)>1: content = sys.argv[1] else: content = pyperclip.paste() webbrowser.open(content) 打开cmd命令提示符，转换当前工作目录， C:\User

爬虫学习——（三）Beautiful Soup的使用

weixin_52024937的博客

08-09

766

前面学习通过正则表达式提取网页信息时，如果正则表达式出现错误则无法正确提取我们所需要的结果。由于网页有一定的特殊和层级关系，利用强大的解析工具——Beautiful Soup能够借助网页的结构和属性等特性来解析网页，相比于正则表达式，它可以利用更简单的语句提取网页内容。............

python爬虫（四）------bs4库（二）------BeautifulSoup的findall()、find(()、select()和select_one()等方法

m0_59389084的博客

08-12

2671

python爬虫（四）------bs4库（二）------BeautifulSoup的findall()、find(()、select()和select_one()等方法

python数据解析之BeautifulSoup

总有人间一两风，填我十万八千梦

09-27

3536

目录数据解析 Beautiful Soup Beautiful Soup用法案例—爬取三国演义章节及对应的内容数据解析数据解析就是将爬取到的整个页面中的局部的内容进行提取。python中常用的数据解析方式有以下三种： bs4（python中独有的） xpath（推荐，通用型强）正则数据解析原理概述：首先我们知道需要解析（提取）的内容都会在标签之间或者标签对应的属性中进行存储所以我们需进行指定标签的定位然后将标签或者标签对应的属性中存储的数据值进行提取（解析） Bea

python爬虫：BeautifulSoup 使用select方法的使用

no-bug

04-25

570

soup.select()使用方法：标签名不加任何修饰，类名（class="className"引号内即为类名）前加点， id名（id="idName"引号前即为id名）前加 #，返回类型是 list 1）通过标签名查找 print soup.select(‘title’) #[< title>The Dormouse's story< /title>] （2）...

Beautiful Soup的用法（五）：select的使用

haleycat的博客

03-07

3万+

原文地址：http://www.bugingcode.com/blog/beautiful_soup_select.html select 的功能跟find和find_all 一样用来选取特定的标签，它的选取规则依赖于css，我们把它叫做css选择器，如果之前有接触过jquery ，可以发现select的选取规则和jquery有点像。通过标签名查找在进行过滤时标签名不加任何修饰，如下...

python爬虫soup.select函数

06-28