网络爬虫的概念
1.网络爬虫与浏览器的区别:浏览器是展示数据的,而网络爬虫是采集数据的
2.定义:模拟客户端发送请求获取相应数据,按照一定的规则,自动从万维网上获取信息的程序
3.作用:从万维网上,获取我们需要的信息
requests介绍
requests是一个优雅而简单的python HTTP请求库
requests的作用是发送请求获取响应数据
requests使用3步骤
1.导入模块
2.发送get请求,获取响应
3.从响应中获取数据
response常见属性
response.text:响应体str类型
response.ecoding:二进制转换字符串使用的编码
response.content:响应体bytes类型
案例:需求
获取丁香园新冠状病毒肺炎疫情实时动态首页内容
首页URL为:https://ncov.dxy.cn/ncovh5/view/pneumonia地址点击
步骤
1.导入模块
2.发送get请求,获取响应
3.从响应中获取数据
BeautifulSoup对象
BeautifulSoup对象:代表要解析整个文档树,
他支持