python爬虫和http请求协议

最新推荐文章于 2023-04-29 10:18:05 发布

clay小哈_

最新推荐文章于 2023-04-29 10:18:05 发布

阅读量1.1k

点赞数 1

分类专栏： Programming language Machine Learning、Cloud DataStruct、Algorithmic DataAnalysis、Processing 文章标签： python 爬虫

本文链接：https://blog.csdn.net/u012942818/article/details/56335455

版权

Programming language 同时被 3 个专栏收录

30 篇文章 0 订阅

订阅专栏

DataStruct、Algorithmic

15 篇文章 0 订阅

订阅专栏

Machine Learning、Cloud

12 篇文章 0 订阅

订阅专栏

1. 为什么要学python爬虫？

先说说我吧，我为什么要学习爬虫呢？
一年前，哥还是个懵懂的学生呢，那时候，基本每天晚上到宿舍都和基友上论坛找电影，一个比较奇怪的体验就是居然没有多选，这能忍么！比如我想看美剧剧情+中文字幕的，我那时候这么做的呢，先选择美剧分类，然后一页一页的ctrl+f 输入 “中文”查找… … ，一段时间俺觉得这样简直是太傻了，于是百度了下，第一次打开了“爬虫”的大门，在强大的兴趣之下，我入门了，这就是我学习python开始的整个经过。

我觉得爬虫一个很大的作用是帮助我们偷懒，就如上面，当我抓取下整个站点的数据后，就可以自定义的条件多了去了，不再用那么傻傻的一页页翻了，爬虫能帮我们省掉一系列繁琐的时间。

2，爬虫的本质是什么？
我理解来，爬虫的本质就是模拟浏览器去打开网页。
比如这个例子，打开这个网页后，按F12，打开开发者工具，点击NetWork->doc ,我们先看Gengral下面的
request url，表示我们请求的地址；
request method，请求的方式，这里我们是GET；

请求方法（所有方法全为大写）有多种，各个方法的解释如下：
GET 请求获取Request-URI所标识的资源
POST 在Request-URI所标识的资源后附加新的数据
HEAD 请求获取由Request-URI所标识的资源的响应消息报头
PUT 请求服务器存储一个资源，并用Request-URI作为其标识
DELETE 请求服务器删除Request-URI所标识的资源
TRACE 请求服务器回送收到的请求信息，主要用于测试或诊断
CONNECT 保留将来使用
OPTIONS 请求查询服务器的性能，或者查询与资源相关的选项和需求
应用举例：
GET方法：在浏览器的地址栏中输入网址的方式访问网页时，浏览器采用GET方法向服务器获取资源，eg:GET /form.html HTTP/1.1 (CRLF)
POST方法要求被请求服务器接受附在请求后面的数据，常用于提交表单。
eg：POST /reg.jsp HTTP/ (CRLF)
Accept:image/gif,image/x-xbit,… (CRLF)
…
Content-Length:22 (CRLF)
Connection:Keep-Alive (CRLF)
Cache-Control:no-cache (CRLF)
(CRLF) //该CRLF表示消息报头已经结束，在此之前为消息报头
user=jeffrey&pwd=1234 //此行以下为提交的数据
HEAD方法与GET方法几乎是一样的，对于HEAD请求的回应部分来说，它的HTTP头部中包含的信息与通过GET请求所得到的信息是相同的。利用这个方法，不必传输整个资源内容，就可以得到Request-URI所标识的资源的信息。该方法常用于测试超链接的有效性，是否可以访问，以及最近是否更新。

status Code 表示服务器返回的状态码，200表示ok；

状态代码有三位数字组成，第一个数字定义了响应的类别，且有五种可能取值：
1xx：指示信息–表示请求已接收，继续处理
2xx：成功–表示请求已被成功接收、理解、接受
3xx：重定向–要完成请求必须进行更进一步的操作
4xx：客户端错误–请求有语法错误或请求无法实现
5xx：服务器端错误–服务器未能实现合法的请求
常见状态代码、状态描述、说明：
200 OK //客户端请求成功
400 Bad Request //客户端请求有语法错误，不能被服务器所理解
401 Unauthorized //请求未经授权，这个状态代码必须和WWW-Authenticate报头域一起使用
403 Forbidden //服务器收到请求，但是拒绝提供服务
404 Not Found //请求资源不存在，eg：输入了错误的URL
500 Internal Server Error //服务器发生不可预期的错误
503 Server Unavailable //服务器当前不能处理客户端的请求，一段时间后可能恢复正常
Accept
Accept请求报头域用于指定客户端接受哪些类型的信息。eg：Accept：image/gif，表明客户端希望接受GIF图象格式的资源；Accept：text/html，表明客户端希望接受html文本。

Accept-Encoding
Accept-Encoding请求报头域类似于Accept，但是它是用于指定可接受的内容编码。eg：Accept-Encoding:gzip.deflate.如果请求消息中没有设置这个域服务器假定客户端对各种内容编码都可以接受。
Accept-Language
Accept-Language请求报头域类似于Accept，但是它是用于指定一种自然语言。eg：Accept-Language:zh-cn.如果请求消息中没有设置这个报头域，服务器假定客户端对各种语言都可以接受
Cookie，有时也用其复数形式 Cookies，指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据（通常经过加密）。定义于 RFC2109 和 2965 中的都已废弃，最新取代的规范是 RFC6265[1] 。（可以叫做浏览器缓存）
HOST 表示你请求网址的请求域

Referer: 告诉服务器你是从哪个页面链接过来的.

爬虫就是模拟浏览器把上面的内容模拟发送出去。