python爬虫基础

1、http基本原理

 1、URI和URL

 URI:统一资源标志符(Uniform Resource Identifier)
 URL:统一资源定位符(uniform resource location)

 URL是URI的子集

 URL提供了一种访问定位因特网上任意资源的手段,但是这些资源可以通过不同的方法访问

2、超文本

网页的html源码就是超文本

3、http和https

 HTTP:超文本传输协议是互联网上应用最为广泛的一种网络协议,是一个客户端和服务器端请求和应答的标准(TCP),用于从WWW服务器传输超文本到本地浏览器的传输协议,它可以使浏览器更加高效,使网络传输减少。

HTTPS:是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,HTTPS的安全基础是SSL,因此加密的详细内容就需要SSL。

https的主要作用分为两种:

1、建立一个信息安全的通道来保证数据传输的安全。

2、确认网站的真实性,凡是使用使用了https的网站,都可以通过点击浏览器地址栏的锁头标志来查看网站认证后的真实信息,也可以通过CA机构颁发的安全签章来查询。

4、请求

请求方法有两种:get和post

post请求大多在请求表单时发起

请求的网址即zi'y资源定位符URL,他可以唯一确定我们想请求的资源

请求头:

请求体:请求体一般承载的是POST请求中的表单数据,而对于GET请求,请求体则为空。

 

5、响应

响应,由服务端返回给客户端,可以分为三个部分:响应状态码、响应头、响应体。

2、会话和Cookies

1、静态网页和动态网页

2、无状态http

会话、cookies、会话维持、属性结构

3、代理

1、基本原理

2、代理的zuo作用

3、爬虫代理

4.代理分类

5.常见代理设置 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值