python-爬虫初识-web端微信登录(三)

最新推荐文章于 2024-06-06 15:32:56 发布

磊-

最新推荐文章于 2024-06-06 15:32:56 发布

阅读量835

点赞数

分类专栏： python-爬虫(全)

本文链接：https://blog.csdn.net/duanlei123456/article/details/100318309

版权

python-爬虫(全) 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一，轮询和长轮询

二，分析web端微信

三，爬虫套路

一，轮询和长轮询

短轮询的基本思路就是浏览器每隔一段时间向浏览器发送http请求，服务器端在收到请求后，不论是否有数据更新，都直接进行响应。这种方式实现的即时通信，本质上还是浏览器发送请求，服务器接受请求的一个过程，通过让客户端不断的进行请求，使得客户端能够模拟实时地收到服务器端的数据的变化。

　　这种方式的优点是比较简单，易于理解，实现起来也没有什么技术难点。缺点是显而易见的，这种方式由于需要不断的建立http连接，严重浪费了服务器端和客户端的资源。尤其是在客户端，距离来说，如果有数量级想对比较大的人同时位于基于短轮询的应用中，那么每一个用户的客户端都会疯狂的向服务器端发送http请求，而且不会间断。人数越多，服务器端压力越大，这是很不合理的。

因此短轮询不适用于那些同时在线用户数量比较大，并且很注重性能的Web应用。

var xhr = new XMLHttpRequest();
    setInterval(function(){
        xhr.open('GET','/user');
        xhr.onreadystatechange = function(){

        };
        xhr.send();
    },1000)

长轮询ajax实现当服务器收到客户端发来的请求后,服务器端不会直接进行响应，而是先将这个请求挂起，然后判断服务器端数据是否有更新。如果有更新，则进行响应，如果一直没有数据，则到达一定的时间限制(服务器端设置)才返回。。客户端JavaScript响应处理函数会在处理完服务器返回的信息后，再次发出请求，重新建立连接。

　　长轮询和短轮询比起来，明显减少了很多不必要的http请求次数，相比之下节约了资源。长轮询的缺点在于，连接挂起也会导致资源的浪费。

function ajax(){
        var xhr = new XMLHttpRequest();
        xhr.open('GET','/user');
        xhr.onreadystatechange = function(){
              ajax();
        };
        xhr.send();
    }

轮询与长轮询都是基于HTTP的，两者本身存在着缺陷:轮询需要更快的处理速度；长轮询则更要求处理并发的能力;两者都是“被动型服务器”的体现:服务器不会主动推送信息，而是在客户端发送ajax请求后进行返回的响应。而理想的模型是"在服务器端数据有了变化后，可以主动推送给客户端",这种"主动型"服务器是解决这类问题的很好的方案。Web Sockets就是这样的方案。

二，分析web端微信

请求路径： https://wx.qq.com/

代码地址：https://github.com/duanlei123/wechat.git 有详细注释....

三，爬虫套路

1，GET

2，POST

3，Cookies

4，Headers

依次注意-考虑以上4点，便可成功爬取任何你想的....

磊-

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python-爬虫初识-web端微信登录(三)

目录一，轮询和长轮询二，分析web端微信三，爬虫套路一，轮询和长轮询短轮询的基本思路就是浏览器每隔一段时间向浏览器发送http请求，服务器端在收到请求后，不论是否有数据更新，都直接进行响应。这种方式实现的即时通信，本质上还是浏览器发送请求，服务器接受请求的一个过程，通过让客户端不断的进行请求，使得客户端能够模拟实时地收到服务器端的数据的变化。　　这种方式的优点是比较简...
复制链接

扫一扫