python爬虫学习32

最新推荐文章于 2024-07-27 12:20:46 发布

亦瑕

最新推荐文章于 2024-07-27 12:20:46 发布

阅读量2.7k

点赞数 3

文章标签： python 爬虫学习

本文链接：https://blog.csdn.net/szshiquan/article/details/124370894

版权

python爬虫学习32

Beautiful soup 其三

之前我们学习的方法都是基于属性来选择的，这实际上是非常不方便的，因为在选取某个特定节点的时候pycharm就不给提示了。。。这时候我们就可以使用Beautiful Soup为我们提供的一些查询方法，例如find_all和find等，然后传入响应的参数就可以进行更加灵活查询了。

7-1 find_all方法

查看find_all方法时，可以看到它有如下API

在这里插入图片描述

name 字段

这段html，又双叒叕来了：

html = """
<div class="nav">
			<ul>
				<li><a href="https://www.qbiqu.com/">首页</a></li>
                <li><a href="/modules/article/bookcase.php">我的书架</a></li>
				<li><a href="/xuanhuanxiaoshuo/">玄幻小说</a></li>
				<li><a href="/xiuzhenxiaoshuo/">修真小说</a></li>
				<li><a href="/dushixiaoshuo/">都市小说</a></li>
				<li><a href="/chuanyuexiaoshuo/">穿越小说</a></li>
				<li><a href="/wangyouxiaoshuo/">网游小说</a></li>
				<li><a href="/kehuanxiaoshuo/">科幻小说</a></li>
				<li><a href="/paihangbang/">排行榜单</a></li>
				<li><a href="/wanben/1_1">完本小说</a></li>
				<li><a href="/xiaoshuodaquan/">全部小说</a></li>
                <li><script type="text/javascript">yuedu();</script></li>
			</ul>
		</div>
        <div id="banner" style="display:none"></div>
		<div class="dahengfu"><script type="text/javascript">list1();</script></div>
"""

实例如下

from bs4 import BeautifulSoup

html = """
<div class="nav">
			<ul>
				<li><a href="https://www.qbiqu.com/">首页</a></li>
                <li><a href="/modules/article/bookcase.php">我的书架</a></li>
				<li><a href="/xuanhuanxiaoshuo/">玄幻小说</a></li>
				<li><a href="/xiuzhenxiaoshuo/">修真小说</a></li>
				<li><a href="/dushixiaoshuo/">都市小说</a></li>
				<li><a href="/chuanyuexiaoshuo/">穿越小说</a></li>
				<li><a href="/wangyouxiaoshuo/">网游小说</a></li>
				<li><a href="/kehuanxiaoshuo/">科幻小说</a></li>
				<li><a href="/paihangbang/">排行榜单</a></li>
				<li><a href="/wanben/1_1">完本小说</a></li>
				<li><a href="/xiaoshuodaquan/">全部小说</a></li>
                <li><script type="text/javascript">yuedu();</script></li>
			</ul>
		</div>
        <div id="banner" style="display:none"></div>
		<div class="dahengfu"><script type="text/javascript">list1();</script></div>
"""
soup = BeautifulSoup(html, 'lxml')
# 使用find_all方法，查询所有名称为ul的节点
print(soup.find_all(name='ul'))
print(type(soup.find_all(name='ul')[0]))

运行结果：显然，文本中的ul节点只有一个，并且返回的结果被放在一个列表中。

在这里插入图片描述

可以看到列表中的每一个元素的类型为Tag类，所以我们可以进行嵌套查询：

from bs4 import BeautifulSoup

html = """
<div class="nav">
			<ul>
				<li><a href="https://www.qbiqu.com/">首页</a></li>
                <li><a href="/modules/article/bookcase.php">我的书架</a></li>
				<li><a href="/xuanhuanxiaoshuo/">玄幻小说</a></li>
				<li><a href="/xiuzhenxiaoshuo/">修真小说</a></li>
				<li><a href="/dushixiaoshuo/">都市小说</a></li>
				<li><a href="/chuanyuexiaoshuo/">穿越小说</a></li>
				<li><a href="/wangyouxiaoshuo/">网游小说</a></li>
				<li><a href="/kehuanxiaoshuo/">科幻小说</a></li>
				<li><a href="/paihangbang/">排行榜单</a></li>
				<li><a href="/wanben/1_1">完本小说</a></li>
				<li><a href="/xiaoshuodaquan/">全部小说</a></li>
                <li><script type="text/javascript">yuedu();</script></li>
			</ul>
		</div>
        <div id="banner" style="display:none"></div>
		<div class="dahengfu"><script type="text/javascript">list1();</script></div>
"""

soup = BeautifulSoup(html, 'lxml')
ul_list = soup.find_all(name='ul')
# 这里为了更加普适使用了循环，但是这个例子里列表中只有一个元素，为了省事的话可以直接进行调用
for item in ul_list:
    print(item.find_all(name='li'))

运行结果：该ul节点下的所有li节点就被查询出来了：

在这里插入图片描述

咳咳，大家可以练习一下在以上的基础上嵌套调用所有li节点下的a节点，这里就不再进行展示了（可不是偷懒啊！）

获取节点内的内容：

from bs4 import BeautifulSoup

html = """
<div class="nav">
			<ul>
				<li><a href="https://www.qbiqu.com/">首页</a></li>
                <li><a href="/modules/article/bookcase.php">我的书架</a></li>
				<li><a href="/xuanhuanxiaoshuo/">玄幻小说</a></li>
				<li><a href="/xiuzhenxiaoshuo/">修真小说</a></li>
				<li><a href="/dushixiaoshuo/">都市小说</a></li>
				<li><a href="/chuanyuexiaoshuo/">穿越小说</a></li>
				<li><a href="/wangyouxiaoshuo/">网游小说</a></li>
				<li><a href="/kehuanxiaoshuo/">科幻小说</a></li>
				<li><a href="/paihangbang/">排行榜单</a></li>
				<li><a href="/wanben/1_1">完本小说</a></li>
				<li><a href="/xiaoshuodaquan/">全部小说</a></li>
                <li><script type="text/javascript">yuedu();</script></li>
			</ul>
		</div>
        <div id="banner" style="display:none"></div>
		<div class="dahengfu"><script type="text/javascript">list1();</script></div>
"""

soup = BeautifulSoup(html, 'lxml')
for item in soup.find_all(name='ul'):
    i = item.find_all(name='li')
    for thing in i:
        print(thing.string)

运行结果：提到内容的话很容易联想到string方法

在这里插入图片描述

attrs 字段

attrs字段用于进行按属性查询：

# attrs
from bs4 import BeautifulSoup
html = """
<div class="nav">
			<ul>
				<li><a href="https://www.qbiqu.com/">首页</a></li>
                <li><a href="/modules/article/bookcase.php">我的书架</a></li>
				<li><a href="/xuanhuanxiaoshuo/">玄幻小说</a></li>
				<li><a href="/xiuzhenxiaoshuo/">修真小说</a></li>
				<li><a href="/dushixiaoshuo/">都市小说</a></li>
				<li><a href="/chuanyuexiaoshuo/">穿越小说</a></li>
				<li><a href="/wangyouxiaoshuo/">网游小说</a></li>
				<li><a href="/kehuanxiaoshuo/">科幻小说</a></li>
				<li><a href="/paihangbang/">排行榜单</a></li>
				<li><a href="/wanben/1_1">完本小说</a></li>
				<li><a href="/xiaoshuodaquan/">全部小说</a></li>
                <li><script type="text/javascript">yuedu();</script></li>
			</ul>
		</div>
        <div id="banner" style="display:none"></div>
		<div class="dahengfu"><script type="text/javascript">list1();</script></div>
"""

soup = BeautifulSoup(html, 'lxml')
# 格式为 字典 “属性名称”：“待检索的值”
# 意为检索class属性为dahengfu的节点
print(soup.find_all(attrs={'class': 'dahengfu'}))
print(soup.find_all(attrs={'id': 'banner'}))

运行结果：

在这里插入图片描述

对于一些常用的属性，我们也可以偷懒一下：

soup = BeautifulSoup(html, 'lxml')
print(soup.find_all(id='banner'))

运行结果：

在这里插入图片描述

text 字段

text字段用于匹配节点文本，其传入形式可以是字符串，也可以是正则表达式对象：

from bs4 import BeautifulSoup
import re

html = """
<div class="nav">
			<ul>
				<li><a href="https://www.qbiqu.com/">首页</a></li>
                <li><a href="/modules/article/bookcase.php">我的书架</a></li>
				<li><a href="/xuanhuanxiaoshuo/">玄幻小说</a></li>
				<li><a href="/xiuzhenxiaoshuo/">修真小说</a></li>
				<li><a href="/dushixiaoshuo/">都市小说</a></li>
				<li><a href="/chuanyuexiaoshuo/">穿越小说</a></li>
				<li><a href="/wangyouxiaoshuo/">网游小说</a></li>
				<li><a href="/kehuanxiaoshuo/">科幻小说</a></li>
				<li><a href="/paihangbang/">排行榜单</a></li>
				<li><a href="/wanben/1_1">完本小说</a></li>
				<li><a href="/xiaoshuodaquan/">全部小说</a></li>
                <li><script type="text/javascript">yuedu();</script></li>
			</ul>
		</div>
        <div id="banner" style="display:none"></div>
		<div class="dahengfu"><script type="text/javascript">list1();</script></div>
"""
soup = BeautifulSoup(html, 'lxml')
# 检索所有含有小说的节点内文本
print(soup.find_all(text=re.compile('小说')))

运行结果：

在这里插入图片描述

7-2 find

find方法也可以查询符合条件的元素，但是find与find_all最大的区别是find仅仅返回第一个符合的结果，类似于我们之前学习正则时fetch与find_all的区别。

# find方法

from bs4 import BeautifulSoup

html = """
<div class="nav">
			<ul>
				<li><a href="https://www.qbiqu.com/">首页</a></li>
                <li><a href="/modules/article/bookcase.php">我的书架</a></li>
				<li><a href="/xuanhuanxiaoshuo/">玄幻小说</a></li>
				<li><a href="/xiuzhenxiaoshuo/">修真小说</a></li>
				<li><a href="/dushixiaoshuo/">都市小说</a></li>
				<li><a href="/chuanyuexiaoshuo/">穿越小说</a></li>
				<li><a href="/wangyouxiaoshuo/">网游小说</a></li>
				<li><a href="/kehuanxiaoshuo/">科幻小说</a></li>
				<li><a href="/paihangbang/">排行榜单</a></li>
				<li><a href="/wanben/1_1">完本小说</a></li>
				<li><a href="/xiaoshuodaquan/">全部小说</a></li>
                <li><script type="text/javascript">yuedu();</script></li>
			</ul>
		</div>
        <div id="banner" style="display:none"></div>
		<div class="dahengfu"><script type="text/javascript">list1();</script></div>
"""
soup = BeautifulSoup(html, 'lxml')
print(soup.find(name='li'))

运行结果：

在这里插入图片描述

今日结束，未完待续

亦瑕

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
3
评论
python爬虫学习32

python爬虫学习32Beautiful soup 其三目录python爬虫学习32Beautiful soup 其三七、方法选择器7-1 find_all方法name 字段attrs 字段text 字段7-2 find七、方法选择器之前我们学习的方法都是基于属性来选择的，这实际上是非常不方便的，因为在选取某个特定节点的时候pycharm就不给提示了。。。这时候我们就可以使用Beautiful Soup为我们提供的一些查询方法，例如find_all和find等，然后传入响应的参数就可以进行更加灵活
复制链接

扫一扫