爬虫爬疫情数据(基础练习)

这篇博客记录了使用Python爬虫抓取实时疫情数据的过程,包括了解网络协议基础知识,如HTTP协议、Cookie和状态码,以及如何通过开发者工具获取HTML内容。还简单介绍了数据清洗和初步的数据分析步骤。
摘要由CSDN通过智能技术生成

学习周记2022/9/23

本周练习为python爬虫的练习,目标是爬取一些实时的疫情数据,并作可视化处理。首先是补习了一些关于网络协议的知识,单纯看代码的可以跳转至后面。

目录

关于网络协议的相关基础知识

爬虫示例(粗略爬取疫情数据)


关于网络协议的相关基础知识

HTTP协议:它是一个简单的请求--响应协议。一般用于TCP端。过程大约为:客户端发送一个请求,服务器返回一个响应。

HTTP统一使用资源标识符URI来传输数据和建立连接。

HTTP原理:

                                                         

利用一个网址来举例:

https://user:pass@www.example.cn:80/dir/index/htm?uid=1#ch1

其中:

https  代表  协议             

user:pass  代表  登录信息

www.example.cn  代表  服务器地址

80  代表  端口号

dir/index.htm?  代表  带层次的文件路径

uid=1  代表  查询字符串

ch1  代表  片段标识符

HTTP特点:①无连接(每次只能处理一个请求)

                    ②是媒体独立的

                    ③无状态(HTTP是无状态协议,无记忆能力)

RFC1945定义了HTTP/1.0版本,RFC2616定义了现在的普遍版本HTTP/1.1

服务器记忆客户端的方法:使用Cookie

过程:客户端在请求之后,服务器生成cookie,并且在响应中添加cookie后返回响应

查看网站cookie方法:

在网站中找到“开发者工具”(用Edge浏览器示例)

然后找到“Application”(或者“应用程序”)

       

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值