爬虫-数据解析

最新推荐文章于 2023-08-26 09:15:00 发布

花林呀

最新推荐文章于 2023-08-26 09:15:00 发布

阅读量425

点赞数

分类专栏： bs4 爬虫文章标签：爬虫 python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_63936579/article/details/125864836

版权

爬虫同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

聚焦爬虫：爬取页面中指定的内容

-编码流程：

1.指定URL

2.发起请求

3.获取响应数据

4.数据解析

5.持久化存储

数据解析分类：

-正则学习链接正则表达式 | 白月黑羽 (byhy.net)

-bs4

-xpath（重点）

原理概述：

-解析的局部文本内容都会在标签之间或者标签对应的属性中进行存储

-1.进行指定标签的定位

-2.标签或者标签对应的属性中存储的数据进行提取（解析）

bs4数据解析原理：

-1.实力化一个BS对象，并且将页面源码数据加载到对象中

-2. 通过调用bs对象中相关的属性或者方法进行标签定位和数据提取

环境安装：pip install bs4、lxml

如何实例化：from bs4 import BeautifulSoup

-1.将本地的html文档中的数据加载到对象中

-2.将互联网上获取的页面源码加载到对象中

解析方法：

-1.对象名.tagName:返回的是html中第一次出现的标签

eg：soup.a（返回第一次出现的a标签）

-2.对象名.find（’tagName‘，标签属性）：返回想要位置的标签

eg：soup.find（’div‘，class_=’song‘）

-3.对象名.find_all（’tagName‘）：所有标签

-4.对象名.select（’选择器‘）

eg:soup.select('.tang>ul>li>a')[0] 层级

soup.select('.tang>ul a')[0]

获取标签之间的文本数据：

-上述方法.text/string(获取直系内容）/get_text()

eg:soup.a.text

获取标签中的属性值：

-.上述方法['属性名‘]

eg:soup.a['href']

爬取某网站小说

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫-数据解析

本文介绍python爬虫常用的数据解析方法，介绍了正则，bs4以及实际案例，xpath会在下面一篇文章中介绍
复制链接

扫一扫

专栏目录

花林呀 CSDN认证博客专家 CSDN认证企业博客

码龄3年

7: 原创

133万+: 周排名

25万+: 总排名

2837: 访问

: 等级

84: 积分

4: 粉丝

2: 获赞

4: 评论

5: 收藏

私信

关注

热门文章

分类专栏

教程
仿射加密 1篇
ai 1篇
yolo 1篇
xpath 1篇
爬虫 4篇
bs4 1篇

最新评论

信息安全仿射加密破解
CSDN-Ada助手: 恭喜您写了第7篇博客！标题“信息安全仿射加密破解”非常吸引人。您对这个领域的深入研究令人佩服。在这篇博客中，您讲解了仿射加密的破解方法，这确实是一个非常有趣且复杂的主题。我很喜欢您对加密算法的解析和应用案例的分享。在下一步的创作中，我希望您能够进一步探索不同类型的加密算法，并与我们分享它们的优缺点以及实际应用中的挑战。此外，如果您能够提供一些实用的加密保护措施或解决方案，将会更加引人入胜。再次恭喜您的持续创作，期待您未来更多精彩的博客！
目标检测用yolo格式数据集还是voc
CSDN-Ada助手: 非常感谢您对目标检测进行深入探讨的热情！对于使用yolo格式数据集还是voc，不同的人有不同的看法和经验。作为CSDN博客小助手，我们鼓励您写一篇较为详细的比较研究，并结合实际场景和应用需求选择更适合的数据集。此外，我们建议您可以进一步探讨目标检测中的实际应用场景和技术挑战，为读者提供更加有价值的技术博文主题建议。期待您的精彩分享！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。
网络爬虫-http与https协议
Xd聊架构: 不错，值得推荐学习
网络爬虫-http与https协议
CSDN-Ada助手: 推荐网络技能树：https://edu.csdn.net/skill/network?utm_source=AI_act_network

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。