【class4】爬虫基础

最新推荐文章于 2024-10-18 14:25:40 发布

fmc121104

最新推荐文章于 2024-10-18 14:25:40 发布

阅读量1.2k

点赞数 20

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fmc121104/article/details/137365127

版权

接上节课内容，了解内容定位：

1.右键【检查】

2.用鼠标点击右上角的箭头

3.

find_all()

代码的作用

BeautifulSoup 中的 find_all() 函数，可以根据标签名，获取soup中的节点。

例如：

BeautifulSoup 对象

变量 soup 是一个 BeautifulSoup 对象，调用 soup 使用 find_all() 函数就能查找 HTML 中的内容。

find_all()函数

find_all() 函数可以查询 soup 中所有符合条件的元素，组成一个列表赋值给ps。

name参数

find_all(name="标签") 根据标签名查询节点
示例代码中，如果我们想要获取 h1 标签所在的节点，可以在 find_all() 中，传入 name 参数，其参数值为 h1 。
由于 name 可以省略，我们也可以直接传入参数值。

赋值变量

将返回的结果，赋值给一个变量。输出的结果是包含所有 h1 节点的列表。

编写简单代码，实现提取<em></em>中的内容

PS：find_all() 返回的是一个列表

由于 find_all() 返回的是一个列表，我们不能直接调用 .string 属性。
我们需要使用 for 循环遍历列表，获取每一个节点字符串，再来调用 .string 属性获取节点中的标签里的内容。

# 使用import导入requests模块

import requests

# 从bs4中导入BeautifulSoup模块

from bs4 import BeautifulSoup

# 将URL地址赋值给变量url

url = "https://nocturne-spider.baicizhan.com/2020/08/07/1/"

# 将变量url传入requests.get()，赋值给response

response = requests.get(url)

# 将服务器响应内容转换为字符串形式，赋值给html

html = response.text

# 使用BeautifulSoup()读取html，添加lxml解析器，赋值给soup

soup = BeautifulSoup(html, "lxml")

# 使用find_all()查询soup中em的节点，赋值给content_all

content_all = soup.find_all(name="em")

# for循环遍历content_all

for content in content_all:

# 获取每个节点中标签内的内容，赋值给contentString

contentString = content.string

# 使用print输出contentString

print(contentString)

PS：windows系统使用Ctrl+F

代码总结：

Import requests

From bs4 import BeautifulSoup

url=“http：//+地址+/”

response=request.get(url)//找到网页

html=response.text//转化字符串

soup=BeautifulSoup（http，“lxml”）//将HTML标准化

content_all=soup.find_all(name=”p”)

for content in content_all:

contentSoup=content.string//提取文字内容

print（contentSoup）

下节课，我们继续了解string的不同应用

总结：

1. 导入 BeautifulSoup ；
2. 使用 BeautifulSoup() 函数对相应内容进行解析；
3. 使用 find_all() 提取网页节点。

过程：

1. 向网页发送请求，获取网页源代码；
2. 导入新的模块，解析网页源代码；
3. 查看网页中的数据节点；
4. 解析内容，提取节点的数据；
5. 学习查找节点的方法，提取节点中的内容。

看一看有什么不记得的内容，这是前几天的内容，多复习一下。

我们选择用边写项目边学习的方法来具体了解爬虫中的简单知识点。到最后一个项目的时候，大家就能够对多数的网页去爬取自己所需要的信息。

欢迎大家学习和交流！！

夜曲打卡第四天

关注

20
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

fmc121104 CSDN认证博客专家 CSDN认证企业博客

码龄1年

63: 原创

55万+: 周排名

2万+: 总排名

6万+: 访问

: 等级

2002: 积分

1222: 粉丝

1361: 获赞

16: 评论

839: 收藏

私信

关注

热门文章

最新评论

【前端】如何制作一个自己的网页（9）
旷世奇才李先生: 【前端】如何制作一个自己的网页（9），这篇文章很好，值得一读。
【前端】如何制作一个自己的网页（9）
潘子旭2024: CSS中，常见的基础选择器有三种。分别为：标签选择器、类选择器、id选择器。
【前端】如何制作一个自己的网页（6）
征途黯然.: 对前端如何制作一个自己的网页6的解释非常详细和易懂。
【前端】如何制作一个自己的网页（6）
李子謇: 内部超链接需要将目标元素的id值作为href的地址，格式为href="#元素的id"
【class11】人工智能初步（人脸识别（1））
CSDN-Ada助手: 恭喜您发布第20篇博客！看到您探讨人工智能初步中的人脸识别话题，深感您的学习热情和勤奋。希望您能继续坚持创作，不断分享您的学习心得和见解。或许在下一篇博客中，可以深入探讨人脸识别技术的发展历程或者与其他领域的结合应用，这样不仅能够加深自己的理解，也能够为读者提供更加丰富的内容。期待您的下一篇精彩博客！祝您学习进步，创作愉快！

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。