美团、饿了么、百度外卖三大外卖平台的店铺、菜品数据爬虫源码
百度外卖:
1、TakeAwayService.java
根据起始的gps坐标(百度加密后的),进行地图的轮询,用redis进行了一个深度的递归,逻辑如下:
(1)当前坐标内可获取到的商家经纬度,取最大最小经纬度组成的四点入轮询redis;
(2)多线程方式 pop redis中的坐标做步骤1的逻辑处理,将获取的所有商家id入库;
(3)当步骤二中的商家id没有获取到,或者获取到的所有商家id均落在之前已获取的商家列表中,这两种方式都将为递归的结束标志;
2、GetShopInfoByIdThread.java
是获取商铺信息及店铺id
补充:百度外卖因为对坐标进行了特定的加密,所以对于上述步骤1的初始坐标的录入,对地图进行了遍历方式的切割,以相隔5公里的坐标点作为起始点,相互补充获取全量数据
饿了么:
主要两种方式介绍全量shopid的获取
1、最暴力的方式,从1开始轮询,饿了么有大量shopid落在0-300万的范围内,但后来发现出现了11位的shopid,不能完全取尽,所以使用2的方式;
2、使用地图遍历方式,获取饿了么的接口,发现根据gps坐标的经纬度,是调用不了接口的,有个参数是对经纬度的加密,加密算法可联系我获取;
美团外卖:
敬请期待 三大外卖平台已有shopid均在百万左右,在qq群 581357369中有部分公开