爬虫

最新推荐文章于 2024-10-03 15:15:00 发布

迷失e城堡

最新推荐文章于 2024-10-03 15:15:00 发布

阅读量282

点赞数

分类专栏：爬虫文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_47757079/article/details/113040046

版权

本文介绍了网络爬虫的基本概念，通过requests库发送HTTP请求，并利用BeautifulSoup解析网页内容。详细讲解了requests的使用步骤、响应对象的常见属性，以及如何创建和操作BeautifulSoup对象。同时，文章通过案例展示了从丁香园疫情首页抓取数据的过程，涉及正则表达式和json模块的应用。

摘要由CSDN通过智能技术生成

网络爬虫的概念

1.网络爬虫与浏览器的区别：浏览器是展示数据的，而网络爬虫是采集数据的
2.定义：模拟客户端发送请求获取相应数据，按照一定的规则，自动从万维网上获取信息的程序
3.作用：从万维网上，获取我们需要的信息

requests介绍

requests是一个优雅而简单的python HTTP请求库
requests的作用是发送请求获取响应数据

requests使用3步骤

1.导入模块
2.发送get请求，获取响应
3.从响应中获取数据

response常见属性

response.text：响应体str类型
response.ecoding：二进制转换字符串使用的编码
response.content：响应体bytes类型

案例：需求

获取丁香园新冠状病毒肺炎疫情实时动态首页内容
首页URL为：https://ncov.dxy.cn/ncovh5/view/pneumonia地址点击

步骤

1.导入模块
2.发送get请求，获取响应
3.从响应中获取数据

BeautifulSoup对象

BeautifulSoup对象：代表要解析整个文档树，
他支持

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。