【DataMining week3】

Web Scraping 流程

HTTP requests -> check response(因为获取可能失败) -> parse response -> store

HTTP

HTTP 协议,hypertext transfer protocol 超文本传输协议
HTML 数据文件

URL

URL,想要获取的文件在服务器中的地址
例子:
https://www.youtube.com/watch?v=asdsadad&key2=value2
protocal://subdomian.domain.extension/path?key1=value1&key2=value2

Response

Response_data
User-agent
Refer
Accept

练手网站 httpbin.org

CURL

curl 利用命令行进行网络连接

TCP-IP

在这里插入图片描述

应用层 HTTP协议

传输层 TCP协议,增加TCP头,包含端口号,序列号

三次握手

在这里插入图片描述SYN,synchronize
ACK,acknowledgement

四次挥手

在这里插入图片描述

网络互联层 IP协议,增加IP头部,包含源IP地址

根据端口号识别本机中正在进行通信的应用程序,并准确地将数据进行传输
在这里插入图片描述
IP地址由网络标识和主机标识两部分标识组成

网络访问层,增加以太网头,包含MAC地址

在数据链路中,MAC地址(Media Access Control Address)是用来标识同一个链路中不同计算机的一种识别码

物理层

在这里插入图片描述

request包

session,保持联系
HTML
selenium
json

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值