一文轻松学会RPC框架

RPC通用爬虫一、项目案例二、Rpc原理解析三、Rpc代码分享四、自我总结

RPC通用爬虫

一、项目案例

uploading.4e448015.gif

正在上传…重新上传取消

  • 测试网址: aHR0cDovL3d3dy5mYW5nZGkuY29tLmNuL3NlcnZpY2UvYnVsbGV0aW5fbGlzdC5odG1sP3R5cGVhPWI2N2MzYjhhZGJkY2U3NGQ=

二、Rpc原理解析

uploading.4e448015.gif

正在上传…重新上传取消

图解关系:

主要包括,爬虫程序、Web服务器、WebScoket服务器、浏览器

核心流程:

爬虫程序调用服务器,可传入参数给服务器,服务器接收到参数后创建一个WS连接,连接到WebSocket服务器;WebSocket服务器其实什么都没有做,就是将消息传递浏览器。因为我们提前替换一些代码,相当于进行hook(找到参数加密解密逻辑,然后利用window定义全局变量),后续传递消息给浏览器,让它帮助我们完成加密解密的工作。将加密参数或是解密参数结果直接返回,发送给WebSocket服务器,最后经过Web服务器返回给我们的爬虫,继续请求服务器获取数据。

启动顺序:

1.WebSocket服务器;

2.断点浏览器,注入JS代码 建立与WS的连接;

3.Web服务器开启等待请求,建立WS连接;

4.Spider调用服务器接口;

三、Rpc代码分享

  • WebSocket服务器

    '''
    模块依赖
    pip install websockets
    pip install sanic
    '''
    import re
    import asyncio
    import websockets
    ​
    # TODO: 消息转发 握手原则
    BROWSER_KEYWORD = "regist"
    PYTHON_SERVER_KEYWORD = "sanic2"
    # ws链接内存存储
    browser_info: dict = {}
    sanic_info: dict = {}
    ​
    async def dispatch_action(ws, path):
        """
        请求分发,存储不同的连接
        :param ws: 服务器与连接对象的连接
        :param path: 请求路径
        :return:
        """
        # action_name 标识 连接对象身份 ...
        re_result = re.compile("/(?P<action_name>.*?)\?name=(?P<proj_name>.*)").search(path)
        action_name: str = re_result.group("action_name")
        proj_name: str = re_result.group("proj_name")
    ​
        # 连接保存 对应存储连接对象 {}
        if action_name == PYTHON_SERVER_KEYWORD:  # Python
            sanic_info[action_name] = ws
        elif action_name == BROWSER_KEYWORD: #  browser
            browser_info[action_name] = ws
        return action_name
    ​
    ​
    async def handler(ws, path):
        """
        主要处理ws请求
        :param ws:服务器与连接对象的连接
        :param path: 请求路径
        :return:
        """
        action_name = await dispatch_action(ws, path)
        print("有人来了: =>>>", action_name)
        # 收到数据,转发数据 可以基于Json
        async for msg in ws: #msg 参数 或者是 返回值
            # 请求控制
            if action_name == PYTHON_SERVER_KEYWORD:
                # 发送给浏览器 连接对象
                await browser_info[BROWSER_KEYWORD].send(msg)
            # 返回加密结果
            elif action_name == BROWSER_KEYWORD:
                # 发送给服务器 连接对象
                await sanic_info[PYTHON_SERVER_KEYWORD].send(msg)
    ​
    async def main():
        async with websockets.serve(handler, "127.0.0.1", 8868) as rpcfucktheworld:
            print("webScoketServer start ...")
            await asyncio.Future()
    ​
    ​
    '''
    启动的顺序很重要
    1.websocketserver
    2.browser
    3.webserver
    4.spider
    ​
    process:
    spider <=> webserver <=> websocketserver <=> browser 
    '''
    ​
    if __name__ == '__main__':
        asyncio.run(main())
    ​

  • Browser浏览器

        (function (){
            // 建立连接
            const socket = new WebSocket('ws://127.0.0.1:8868/regist?name=ooxx');
        // 接收到消息时的回调函数
            socket.addEventListener('message', function (event) {
                const obj = JSON.parse(event.data);
    ​
                // obj 所有的参数
                console.log("参数来了:", obj)
                // 植入js代码搞一波....
                window.FUCK1();
                const result = {
                    // any you want to return value...
                    "MmEwMD":window.FUCK2(obj.url),
                    "cookie": document.cookie,
                }
                console.log("数据打包回家:", result)
                    socket.send(JSON.stringify(result));
            });
        })()
    ​
  • WebServer服务器

    '''
    第三方模块下载:
    pip install websockets
    pip install sanic
    '''
    import json
    import websockets
    from sanic.request import Request
    from sanic.response import text
    from sanic import Sanic
    ​
    app = Sanic(__name__)
    ​
    # http://localhost:8089/getSign?projName=ooxx
    ​
    # TODO:初步完成一部服务器的搭建 简易版本 支持传参 针对某一个项目
    ​
    @app.route("/getSign", methods=["GET", "POST"])
    async def get_sign(request: Request):
        proj_name = request.args.get('projName')
        if not proj_name:
            raise Exception("请输入项目名称!")
    ​
        proj_params: dict = request.json
        print("来了:", proj_params, type(proj_params))
        async with websockets.connect("ws://127.0.0.1:8868/sanic2?name={}".format(proj_name)) as ws:
            await ws.send(json.dumps(proj_params))
            result = await ws.recv()
            return text(result)
    ​
    if __name__ == '__main__':
        app.run(host="127.0.0.1", port=8089, debug=True)  # spider view
    ​

  • Spider爬虫程序

    import json
    import requests
    import time
    ​
    ​
    ​
    class PinduoduoSpider():
        def __init__(self):
            self.page = 1
            self.url = "https://脱敏处理/spike_list"
            self.headers = {
                ......
            }
    ​
        def get_anti_content(self):
            anti_content = requests.get("http://脱敏处理/getSign?projName=脱敏处理").json()["data"]
            return anti_content
    ​
        def task(self):
            response = requests.get(self.url, headers=self.headers, params={
                "page": self.page,
                "size": "50",
                "anti_content": self.get_anti_content()
            })
    ​
            print(response.json())
    ​
        def run(self):
            while True:
                self.task()
                print("当前页码:" + "=" * 20 + '>>>', self.page)
                self.page += 1
                time.sleep(2)
    ​
    ​
    if __name__ == '__main__':
        脱敏处理().run()
    ​

四、自我总结

1、关于爬虫这件事:
通过对RPC框架进行学习,我发现如果我们越了解服务器架构,后端开发,运维开发,就越有认知和思想。
例如:Scrapy分布式 采用Redis作为消息队列,可以开启多个Scrapy爬虫程序对指定网站进行数据抓取。优点:支持断点续爬虫,可以持续不断的采集数据,worker处于阻塞状态,等待任务到来然后执行对应的爬虫逻辑,这为抓取成千上万的数据提供了结实的基础。利用Redis里面的集合,我们可以对数据进行去重,从而保证了数据的唯一性;利用Redis里面的列表,我们可以实现消息队列,对请求对象进行排序,更多精彩部分在下期分享。
​
2.RPC运用场景:
当你找到了参数加密或解密位置,但是其逻辑非常复杂你就可以使用RPC搭建一套服务器框架,快速远程调用获取想要的参数。
​
3.RPC优缺点:
RPC优点>: 不用逆向了,直接获取结果,直接拿到结果,逻辑非常简单依赖网络协议,各个程序之间的通信。
RPC缺点>: 采集速度太慢,性能不好,速度不够快,只能暂时解决问题,采集更多的数据有一定的困难;必须开启本地浏览器(or selenium模拟),浪费资源。
  • 21
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值