爬虫入门:(一)HTTP协议

21人阅读 评论(0) 收藏 举报
分类:

1、Request包含什么:

(1)Request Method:请求方式,如get、post、put、delete、head(只返回response对象的Res Headers)
(2)Request URL:请求URL,请求的统一资源定位符,访问网页时第一次请求是document请求,然后是解析其中的URL,然后发起script、png、gif、JPEG、video等请求
(3)Request Headers(请求头:用字典形式保存)
     User-Agent:HTTP客户端运行的浏览器类型的详细信息
    Accept:指定客户端能够接收的内容类型,内容类型中的先后次序表示客户端接收的先后次序。,比如text/html,application/xhtml+xml
     Accept-Encoding : 指定客户端浏览器可以支持的web服务器返回内容压缩编码类型。表示允许服务器在将输出内容发送到客户端以前进行压缩,以节约带宽。而这里设置的就是客户端浏览器所能够支持的返回压缩格式。
     Accept-Language : 指定HTTP客户端浏览器用来展示返回信息所优先选择的语言。
     Connetion : 表示是否需要持久连接。如果web服务器端看到这里的值为“Keep-Alive”,或者看到请求使用的是HTTP 1.1(HTTP 1.1默认进行持久连接),它就可以利用持久连接的优点,当页面包含多个元素时(例如Applet,图片),显著地减少下载所需要的时间。
     Content-Type:显示此HTTP请求提交的内容类型。一般只有post提交时才需要设置该属性。
     Accept-Charset:浏览器可以接受的字符编码集。如Accept-Charset: gb2312
     Cookie : HTTP请求发送时,会把保存在该请求域名下的所有cookie值一起发送给web服务器。
     Host :请求的web服务器域名地址
     Referer:包含一个URL,用户从该URL代表的页面出发访问当前请求的页面
 (4)请求体
    get请求时不携带东西, put、delete、post请求时携带Form Data表单数据

2、Response包含什么:

(1)Status Code: 响应状态码如200、300、404、505等。
(2)Remote Address:远程的IP地址。
(3)Response Headers(响应头,用字典保存):
    date: 响应的时间
    Connetion : 连接状态(keep-alive等)
    expires:响应过期的日期和时间
    Set-Cookie : 设置Http Cookie,如Set-Cookie: UserID=JohnDoe; 
    Content-Type : 返回内容的MIME类型,Content-Type: text/html; charset=utf-8
    Content-Encoding :内容编码方式
    Content-Language:响应体的语言
    Content-Length:响应体的长度
    Transfer-Encoding:文件传输编码,如Transfer-Encoding:chunked
    Server :web服务器软件名称,Server: Apache/1.3.27 (Unix) (Red-Hat/Linux)
    Cache-Control:告诉所有的缓存机制是否可以缓存及哪种类型
(4)Response Body(响应体);
   包含很多URL,我们可以解析响应体,提取出URL,再次发起请求。响应体可以是html页面,也可以是json字符串。

查看评论

https与http的区别

在三大社交网站(facebook,twitter,google plus)上混过的同道们都应该注意到了一点:这三个网站的域名前面都是https而不是最常见的http。      先介绍http:超文...
  • banbanlin
  • banbanlin
  • 2014-11-27 10:25:31
  • 3059

爬虫基础之http协议

转自:http://blog.csdn.net/gueter/archive/2007/03/08/1524447.aspx Author :Jeffrey 引言 HTTP是...
  • u011262253
  • u011262253
  • 2017-06-16 15:06:39
  • 277

python爬虫和http请求协议

我经常会看到有人在知乎上提问如何入门 Python 爬虫?如何学习Python爬虫[入门篇]?等这一些问题,我今天写这篇文章的目的就是来告诉大家,我为什么要学爬虫,爬虫的本质是什么。...
  • u012942818
  • u012942818
  • 2017-02-21 23:09:35
  • 559

Python爬虫一(入门综述、基础)

转载:静觅 » Python爬虫入门一之综述 首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维...
  • freeking101
  • freeking101
  • 2017-03-01 21:27:37
  • 752

Python 爬虫入门(三) HTTP协议请求方式

Python 爬虫入门(三) HTTP协议请求方式 在爬虫中,经常会用到的两类请求方法分别是GET方法和POST方法。 通常来说,直接通过浏览器在浏览器的网址处输入网站链接访问的方式成为GE...
  • yu_ncepu
  • yu_ncepu
  • 2017-03-15 17:59:38
  • 506

爬虫-java-百度--入门

参考链接:http://www.jb51.net/article/57193.htm 本来打算这篇文章直接抓取知乎的,但是想想还是先来个简单的吧,初级文章适合初学者,高手们请直接略过 ...
  • wzq__janeGreen_
  • wzq__janeGreen_
  • 2017-03-31 21:18:01
  • 698

爬虫应知道的http协议相关信息

user-agent:识别客户端程序,它可以确定访问者是爬虫还是浏览器以及浏览器类型和版本、操作系统,使用语言等信息。 未完待续...
  • u011707148
  • u011707148
  • 2017-06-05 11:10:55
  • 149

网络爬虫项目开发日志(五): 爬虫协议初探

--前言-- 常在河边走,哪有不湿鞋 有的时候,网络爬取就像串门一样,如果守规矩的话,是需要先打个电话给主人预约一下,或是进门的时候先敲门看看主人是否在家,如果主人允许咱进去,咱再进去,进去后,也...
  • qq_33134761
  • qq_33134761
  • 2016-11-16 14:26:25
  • 535

网络爬虫排除协议robots.txt介绍及写法详解.

以上内容转载自:www.xgezhang.com Robots协议的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),它的功能是通过Robots文件告...
  • u014237185
  • u014237185
  • 2014-09-16 16:31:21
  • 2028

Http协议入门

什么是http协议 http协议: 对浏览器客户端 和 服务器端 之间数据传输的格式规范 查看http协议的工具 1)使用火狐的firebug插件(右键->firebug->网络) ...
  • gafeng123456
  • gafeng123456
  • 2016-03-31 11:21:22
  • 967
    个人资料
    持之以恒
    等级:
    访问量: 5821
    积分: 563
    排名: 9万+
    最新评论