前段时间关于瑞幸财务造假被退市新闻闹的沸沸扬扬,而瑞幸此前宣传中有一点引起了我的注意:在国内瑞幸门店超过星巴克,那今天我们来用Python验证一下吧!
如果不借助他人的数据,你能自己算出瑞幸咖啡和星巴克咖啡其各自的门店数量吗?
让你自己算出一个精确的值,你会使用什么方法进行计算一线城市门店数量?
难度高一点点,你怎么样才能知道二线城市的门店总数,甚至是全国的门店数量?
1.下载requests库
开始之前,你要确保Python和pip已经成功安装在电脑上噢。
在终端输入以下命令安装我们所需要的依赖模块:
pip install requests
看到 Successfully installed xxx 则说明安装成功。
2.如何获取门店数?
怎么样,文章开头提出的问题你想到答案了吗?
其实很简单,那就是调用地图的接口进行门店搜索。通过这个方法,我们不仅可以算出门店的数量,还能得到每个门店的对应位置,并且可以用来做后续的数据分析:
所以现在问题就转化为找到有提供搜索接口的地图供应商,而且这个接口得是免费的,因此我找了腾讯地图的接口:
https://lbs.qq.com/
你只需要上去注册账号,申请Key即可调用相关的接口,申请完了记得开webserviceAPI,选择签名校验的形式调用接口:
3.爬取数据
为了使用API,我们得先初始化请求链接及其所需要的参数:
Key是在你申请API权限的时候就会分配给你的,而sk是在你选择 签名校验 的形式调用接口时分配给你的。
那么我们如何用这两个数据请求接口呢?请看下面这个函数:
首先是将初始化的请求链接拼接起来,然后由于需要签名校验,因此我们得如下进行操作:
GET请求分为:域名,请求路径和参数三个部分,用于签名计算的有:
请求路径:/ws/place/v1/search?
请求参数:boundary=region({},0)&key={}&keyword={} &page_index={}&page_size=20
注意{}是待填充的
1. 首先对参数进行排序:按参数名升序(本例结果为 boundary 在前,key在后,如果第一个字母相同,要依据第二个字母升序):
boundary=region({},0)&key={}(....后面略)
2. 签名计算(sig):
请求路径+”?”+请求参数+SK进行拼接,并计算拼接后字符串md5值,即为签名(sig):
要求:请求参数必须是未进行任何编码(如urlencode)的原始数据
md5(" /ws/place/v1/search?boundary=region({},0)&key={}&keyword={} &page_index={}&page_size=20你的SK")
计算得到结果类似为:22dxxxxxxxxxxxxxx2b0bcc0e50
3. 生成最终请求:将计算得到的签名sig,放到请求中(参数名即为:sig):
https://apis.map.qq.com/ws/place/v1/search? boundary=region({},0)&key={}&keyword={} &page_index={}&page_size=20&sig= 22dxxxxxxxxxxxxxx2b0bcc0e50
注意:计算 sig 要使用原始参数值,不要进行任何编码,但最终发送时的参数,是需要时行url编码的
最后拿到返回的值,里面带有所有结果的地理位置及结果的数量。
2.2 按地点返回结果
这一部分其实很简单,就是调用2.1的函数,然后实现分页保存变量,最后输出门店数量,返回数据。
计算一线城市的结果如下:
F:push20200315>python scrapy.py瑞幸咖啡 北京 门店总数为:492瑞幸咖啡 上海 门店总数为:581瑞幸咖啡 广州 门店总数为:301瑞幸咖啡 深圳 门店总数为:260
4.汇总结果并保存
接下来我们需要汇总2.2计算到的每个城市的数据,保存到json文件,并计算总数。
最终可以获得一个 瑞幸咖啡.json 的文件,里面存有每个城市的咖啡店精确位置,并输出一个总数,这样调用即可:
F:push20200315>python scrapy.py瑞幸咖啡 北京 门店总数为:492瑞幸咖啡 上海 门店总数为:581瑞幸咖啡 广州 门店总数为:301瑞幸咖啡 深圳 门店总数为:260瑞幸咖啡 一线城市门店总数为:1634星巴克 北京 门店总数为:380星巴克 上海 门店总数为:797星巴克 广州 门店总数为:209星巴克 深圳 门店总数为:201星巴克 一线城市门店总数为:1587
看来瑞幸咖啡一线城市里的门店数量为:1634 已经超过星巴克的1587,不愧是割资本主义国家韭菜,造福中国老百姓的企业啊!
5.扩展
就像文章开头所提到的,如果你需要算出每个城市的咖啡店数量其实也很简单,咱可以调用下面这个接口请求腾讯地图的所有行政区数据,获得所有城市的名称:
https://apis.map.qq.com/ws/district/v1/list
不过我已经dump了一个,文末给出数据链接。
使用这一个,你只需要读取该csv文件提取所有城市名,然后放入cities变量中进行计算,如下代码所示:
请注意一些特殊情况,比如说那个城市没有数据的时候,接口可能不会返回date数据,这时候要用字典的get方法进行处理:
# pois = res.json()['data']pois = res.json().get('data', [])
值得提醒你的是,如果你要计算全国的数据的话,这个方法并不可靠,因为无法避免山寨店的存在,山寨店一样也会被记入到腾讯地图中,而一线城市的监管严格,比较少出现山寨店的情况,因此可以用这个方法计算。
如果想统计全国的店铺数还需要添加一些筛选、清晰手段,这些就留给大家自己思考吧!
源码获取私信小编01获取!