学习周记2022/9/23
本周练习为python爬虫的练习,目标是爬取一些实时的疫情数据,并作可视化处理。首先是补习了一些关于网络协议的知识,单纯看代码的可以跳转至后面。
目录
关于网络协议的相关基础知识
HTTP协议:它是一个简单的请求--响应协议。一般用于TCP端。过程大约为:客户端发送一个请求,服务器返回一个响应。
HTTP统一使用资源标识符URI来传输数据和建立连接。
HTTP原理:
利用一个网址来举例:
https://user:pass@www.example.cn:80/dir/index/htm?uid=1#ch1
其中:
https 代表 协议
user:pass 代表 登录信息
www.example.cn 代表 服务器地址
80 代表 端口号
dir/index.htm? 代表 带层次的文件路径
uid=1 代表 查询字符串
ch1 代表 片段标识符
HTTP特点:①无连接(每次只能处理一个请求)
②是媒体独立的
③无状态(HTTP是无状态协议,无记忆能力)
RFC1945定义了HTTP/1.0版本,RFC2616定义了现在的普遍版本HTTP/1.1
服务器记忆客户端的方法:使用Cookie
过程:客户端在请求之后,服务器生成cookie,并且在响应中添加cookie后返回响应
查看网站cookie方法:
在网站中找到“开发者工具”(用Edge浏览器示例)
然后找到“Application”(或者“应用程序”)