小结post&get yield

最新推荐文章于 2020-04-23 00:57:50 发布

Morning_17

最新推荐文章于 2020-04-23 00:57:50 发布

阅读量357

点赞数 1

分类专栏：软云实验室记录文章标签：爬虫 post get yield

本文链接：https://blog.csdn.net/qq_42740852/article/details/88033500

版权

软云实验室记录专栏收录该内容

9 篇文章 0 订阅

订阅专栏

总结

POST与GET
yield ==> 生成器
后记

POST与GET

很久之前，因为任务的原因，了解过POST和GET，在最近的爬虫任务中，也遇到了POST请求和GET请求。出于好奇，再次去了解了一下相关的东西，又有了一些不一样的体会

请求过程

POST请求会产生2个(TCP)包，而GET请求只产生1个。
GET请求比较粗暴，浏览器会把http header和data一并发送出去，服务器响应200(返回数据)
POST请求就要温柔一些，浏览器先发送header，服务器响应100 continue，浏览器再发送data，服务器响应200 ok(返回数据)
这里就会出现一个问题，GET请求会比POST请求快，那为什么还要使用POST请求呢？这就与安全性有关了

安全性

长话短说，POST请求更安全，它把参数放到了request body里面，不会被浏览器cache。相比之下，GET请求则要危险些，怎么说呢，除了它会被浏览器主动cache之外，观察我们的url，我们会发现在部分url后面又是会跟着一些以“?”开始的奇奇怪怪的字符，这些就是GET请求的一些参数。你说它把这些参数写在了完整的url，我们想要获取，岂不是伸伸手的事吗？

本质

它们都是HTTP与服务器交互的方式
GET/POST都是TCP链接

形象化比喻

这里的比喻是我在另一篇文章中看到的，很形象，易懂！

“在我大万维网世界中，TCP就像汽车，我们用TCP来运输数据，它很可靠，从来不会发生丢件少件的现象。但是如果路上跑的全是看起来一模一样的汽车，那这个世界看起来是一团混乱，送急件的汽车可能被前面满载货物的汽车拦堵在路上，整个交通系统一定会瘫痪。为了避免这种情况发生，交通规则HTTP诞生了。HTTP给汽车运输设定了好几个服务类别，有GET, POST, PUT, DELETE等等，HTTP规定，当执行GET请求的时候，要给汽车贴上GET的标签(设置method为GET)，而且要求把传送的数据放在车顶上(url中)以方便记录。如果是POST请求，就要在车上贴上POST的标签，并把货物放在车厢里。当然，你也可以在GET的时候往车厢内偷偷藏点货物，但是这是很不光彩;也可以在POST的时候在车顶上也放一些数据，让人觉得傻乎乎的。HTTP只是个行为准则，而TCP才是GET和POST怎么实现的基本。”

“在我大万维网世界中，还有另一个重要的角色：运输公司。不同的浏览器(发起http请求)和服务器(接受http请求)就是不同的运输公司。虽然理论上，你可以在车顶上无限的堆货物(url中无限加参数)。但是运输公司可不傻，装货和卸货也是有很大成本的，他们会限制单次运输量来控制风险，数据量太大对浏览器和服务器都是很大负担。业界不成文的规定是，(大多数)浏览器通常都会限制url长度在2K个字节，而(大多数)服务器最多处理64K大小的url。超过的部分，恕不处理。如果你用GET服务，在request body偷偷藏了数据，不同服务器的处理方式也是不同的，有些服务器会帮你卸货，读出数据，有些服务器直接忽略，所以，虽然GET可以带request body，也不能保证一定能被接收到哦。”

来自 https://blog.csdn.net/Alexshi5/article/details/79659486
我觉得写的不错，推荐大家去看一下

yield ==> 生成器

我们在爬虫中总是用到yield，那么yield到底是什么？一开始我以为就是一个类似提交的关键字，后来才知道并不是这样的

python中的yield

参考 https://blog.csdn.net/Alexshi5/article/details/79659486

这里面讲的很清楚了，我就不多不再多说啦
稍微总结下，yield类似return，会马上返回值，并停止该函数，不同的是，yield会记录下刚刚函数停下来的位置，直到下次再次遇见yield，开始执行记录的位置以后的语句（不执行之前的语句）

scrapy中的yield
以下是我们常常遇见的yield

yield scrapy.Request(url, callback=self.page)

item = MyItem()
# MyItem是我引用items.py的产物
yield item

scrapy框架还是挺聪明的，它会根据 yield 返回的实例类型来执行不同的操作
如果是 scrapy.Request 对象（图一），scrapy框架会去获得该对象指向的链接并在请求完成后调用该对象的回调函数
如果是 scrapy.Item 对象（图二），scrapy框架会将这个对象传递给 pipelines.py做进一步处理

（图一）这里，我遇到过这种情况，我使用post方法请求url，并且想将获得的响应用某一回调函数解析，但是该回调函数根本没有被成功调用，并且DEBUG时并没有报错，检查得知这是因为我post的数据表单有误，没有成功请求到目标链接
我的想法是如果scrapy框架没有请求成功，那么也就无法调用回调函数，如果回调函数没有执行，我们就应该去试着检查一下请求是否成功

当然还有一种情况是这样的