爬虫

本文介绍了网络爬虫的基本概念,通过requests库发送HTTP请求,并利用BeautifulSoup解析网页内容。详细讲解了requests的使用步骤、响应对象的常见属性,以及如何创建和操作BeautifulSoup对象。同时,文章通过案例展示了从丁香园疫情首页抓取数据的过程,涉及正则表达式和json模块的应用。
摘要由CSDN通过智能技术生成

网络爬虫的概念

1.网络爬虫与浏览器的区别:浏览器是展示数据的,而网络爬虫是采集数据的
2.定义:模拟客户端发送请求获取相应数据,按照一定的规则,自动从万维网上获取信息的程序
3.作用:从万维网上,获取我们需要的信息

requests介绍

requests是一个优雅而简单的python HTTP请求库
requests的作用是发送请求获取响应数据

requests使用3步骤

1.导入模块
2.发送get请求,获取响应
3.从响应中获取数据

response常见属性

response.text:响应体str类型
response.ecoding:二进制转换字符串使用的编码
response.content:响应体bytes类型

案例:需求

获取丁香园新冠状病毒肺炎疫情实时动态首页内容
首页URL为:https://ncov.dxy.cn/ncovh5/view/pneumonia地址点击

步骤

1.导入模块
2.发送get请求,获取响应
3.从响应中获取数据

BeautifulSoup对象

BeautifulSoup对象:代表要解析整个文档树,
他支持

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值