python爬虫(1)-----涉及到的网络知识

端口

  • 每一个应用程序都有自己独立的标识,标识简称端口

通信协议

  • 国际组织定义了通信协议是TCP/Ip

  • 所谓的协议就是计算机共同遵守的规则或者规定

  • 爬虫遵守的协议是http协议(超文本传输协议),80

网络模型

  • https=HTTP+SSL,是以安全为目的的http通道(保密传输)

http请求

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E7%8E%8B%E5%85%88%E7%94%9F
​
https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E7%8E%8B%E5%85%88%E7%94%9F(%16进制)
​
General:全部的
Request url:请求的地址 (加)
Request method:get,post请求方法(一般情况下,网站上面是什么请求方式,爬虫程序上面写啥请求方式,特殊具体情况具体分析)
Status Code:状态码 200请求成功
​
如果有一些静态的页面,简单来说数据都是在网页的源码里面
如果是动态页面,Request url(目标url,得分析,查找响应的结果)
​
Resopnse Headers 服务器的响应
Request headers 客户端的请求
Query String Paramenters 参数
​
Request headers 
host:www.baidu.com(主机:域名/端口)
Connection:keep-alive(保持长连接)
Tcp三次握手(百度发起请求一次,如果是长链接,可以缩短消耗时间,减少资源的消耗,)
User-Agent:用户代理,爬虫一般都是会添加的,防止一些网站来检测ua( 反 反爬的第一步)
cookie:(记录用户的相关信息,有道翻译到)
​
referer:url的地址(次级页面发起请求),视情况而定,有时间限制

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值