python爬虫入门到精通_python爬虫从入门到精通

第一节课:什么是履带简介:搜索引擎抓取一张票能与自动爬虫抓取数据?的本质是什么一个履带模仿浏览器打开一个网页。第二讲:HTTP协议HTTP协议的超文本传输协议(中文:超文本传输协议),缩写:HTTP)是在互联网上使用最广泛的网络协议。原设计HTTP的目的是提供一种方法来发布和接收HTML页面。资源请求通过HTTP或HTTPS协议确定由统一资源标识符(URI)。HTTP的发展是在1989年由Tim berners - lee在欧洲核研究组织(CERN)。标准是由万维网联盟(W3C)和互联网工程任务组(IETF),以及一系列的rfc终于释放了。其中最著名的是RFC 2616,发表在1999年6月,它定义了一种广泛使用的today-HTTP HTTP协议。

[2]HTTP \/ 2 RFC 7540标准正式发布2015年5月,取代HTTP实现标准HTTP。[3]HTTP客户机终端(用户)和服务器(网站)请求和响应标准(TCP)。通过使用一个web浏览器,网络爬虫或其他工具,客户端发起一个HTTP请求服务器上的指定端口(默认端口为80)。我们称之为客户端用户代理。一些资源,比如HTML文件和图像,存储在服务器响应。我们称之为原始服务器响应服务器。可能有多个用户代理之间的\u201C中间层\u201D和源服务器,如代理服务器,网关或隧道。虽然TCP \/ IP协议是最受欢迎的应用程序在互联网上,没有规定在HTTP协议或层必须使用它支持。事实上,HTTP可以实现在任何互联网协议或其他网络。

因此,任何的协议,它可以提供这样的保证可以使用它。因此,使用TCP作为传输层TCP \/ IP协议套件。通常,HTTP客户端发起一个请求来创建一个TCP连接到服务器的指定端口(默认端口为80)。HTTP服务器监听客户端请求端口。一旦收到请求,服务器将返回一个状态给客户端,如\u201C200 OK\u201D,和返回的内容,如所请求的文件,错误信息或其他信息。对于一个具体的例子,打开网站页面,按F12键的浏览器,点击网络,点击文档,然后刷新页面,然后点击标题,你可以看到以下界面:其中包括:HTTP协议的统一资源定位符是我们打开的URL的HTTP请求方法的协议,我们GETRequest使用方法:#(爬虫)。

常用的是,POSTGET:\u201C显示\u201D请求发送到指定的资源。使用GET方法只能用于读取数据,不应使用和操作,产生\u201C副作用\u201D,比如在Web应用程序中。原因之一是,可以随机访问web spider和其他人。看到安全方法选择:这种方法使服务器返回所有HTTP请求方法支持的资源。用\u201C*\u201D来替代资源名称和发送一个请求到Web服务器选项测试服务器功能是否正常工作。把:上传最新的内容到指定的资源的位置。删除:请求服务器删除资源得到由请求uri所指定资源。跟踪:回声请求接收到服务器,主要用于测试或诊断。连接:协议是预留给代理服务器,它可以改变到管道的连接模式。

对应于HTTP协议的状态代码,我们返回这个时间是200好,状态代码:200 OK(爬虫所使用的)。状态代码的含义:1 xx消息\u2014\u2014由服务器请求已经收到,继续处理2 xx成功请求成功收到,理解,并接受3 xx重定向服务器a的后续操作完成请求4 xx请求所需的那些请求包含一个词法错误或无法执行5 xx服务器那些服务器常见错误状态码是正确处理请求,状态描述、解释:200 OK \/ \/请求成功400错误请求\/ \/客户端请求有一个语法错误,不能理解的server 401未经授权的\/ \/请求授权,该状态代码必须一样WWW-Authenticate header字段一起使用与403年禁止\/ \/服务器接收请求,但拒绝提供服务404 Not Found \/ \/请求的资源不存在,如:错误的URL输入500内部服务器错误\/ \/服务器有一个意想不到的错误503服务器不可用\/ \/服务器目前无法处理客户的请求。

接受是接受客户端请求信息的类型。在这里,text \/ html类型的请求。接受编码:gzip、缩小、sdch br:请求标头字段类似于接受,但它用于指定可接受的内容编码。例如:如果不设置这个域服务器的请求消息,假设客户可以接受各种内容编码。:指定类型的语言。如果没有头,所有的语言都可以接受。cache - control: no - cache:用于控制web页面缓存。连接:点火电极:HTTP持久连接,使用相同的TCP发送和接收多个HTTP请求\/响应:当前web页面请求的请求域(Windows NT;Win64;x64) (KHTML,像壁虎)用户请求通过什么工具?(因为我使用谷歌浏览器,浏览器显示)如果因为:结婚,2017年2月15日09:14:13 GMTIf-None-Match: W \/\u201C58 a41be5 - 190 aa Last - Modified\u201D:结婚,2017年2月15日09:14:13 GMTETag:\u201C58 a41be5 - 190 aa\u201D4一般静态页面将使用If - Modified - since,具有这两个请求头,ETag, Last - Modified是返回头(服务器返回的)如果If - Modified - since和最后修改的值等于表明当前请求的内容没有改变,和服务器返回状态码:304不修改

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值