Web Scraping 流程
HTTP requests -> check response(因为获取可能失败) -> parse response -> store
HTTP
HTTP 协议,hypertext transfer protocol 超文本传输协议
HTML 数据文件
URL
URL,想要获取的文件在服务器中的地址
例子:
https://www.youtube.com/watch?v=asdsadad&key2=value2
protocal://subdomian.domain.extension/path?key1=value1&key2=value2
Response
Response_data
User-agent
Refer
Accept
练手网站 httpbin.org
CURL
curl 利用命令行进行网络连接
TCP-IP
应用层 HTTP协议
传输层 TCP协议,增加TCP头,包含端口号,序列号
三次握手
SYN,synchronize
ACK,acknowledgement
四次挥手
网络互联层 IP协议,增加IP头部,包含源IP地址
根据端口号识别本机中正在进行通信的应用程序,并准确地将数据进行传输
IP地址由网络标识和主机标识两部分标识组成
网络访问层,增加以太网头,包含MAC地址
在数据链路中,MAC地址(Media Access Control Address)是用来标识同一个链路中不同计算机的一种识别码
物理层
request包
session,保持联系
HTML
selenium
json