md5签名 python_Python爬取,瑞幸真的比星巴克的门店还多吗?

前段时间关于瑞幸财务造假被退市新闻闹的沸沸扬扬,而瑞幸此前宣传中有一点引起了我的注意:在国内瑞幸门店超过星巴克,那今天我们来用Python验证一下吧!

如果不借助他人的数据,你能自己算出瑞幸咖啡和星巴克咖啡其各自的门店数量吗?

让你自己算出一个精确的值,你会使用什么方法进行计算一线城市门店数量?

难度高一点点,你怎么样才能知道二线城市的门店总数,甚至是全国的门店数量?

1.下载requests库

开始之前,你要确保Python和pip已经成功安装在电脑上噢。

在终端输入以下命令安装我们所需要的依赖模块:

pip install requests

看到 Successfully installed xxx 则说明安装成功。

2.如何获取门店数?

怎么样,文章开头提出的问题你想到答案了吗?

其实很简单,那就是调用地图的接口进行门店搜索。通过这个方法,我们不仅可以算出门店的数量,还能得到每个门店的对应位置,并且可以用来做后续的数据分析:

9d81b157ea75d6a3a7696981f38ed606.png

所以现在问题就转化为找到有提供搜索接口的地图供应商,而且这个接口得是免费的,因此我找了腾讯地图的接口:

https://lbs.qq.com/

你只需要上去注册账号,申请Key即可调用相关的接口,申请完了记得开webserviceAPI,选择签名校验的形式调用接口:

4a071175350a445f0ccffdb1d91464b3.png

3.爬取数据

为了使用API,我们得先初始化请求链接及其所需要的参数:

0c7ead730c2094decf2d17261bdec9bd.png

Key是在你申请API权限的时候就会分配给你的,而sk是在你选择 签名校验 的形式调用接口时分配给你的。

那么我们如何用这两个数据请求接口呢?请看下面这个函数:

a78cc7c72ae626b53735580c5d9f34c7.png

首先是将初始化的请求链接拼接起来,然后由于需要签名校验,因此我们得如下进行操作:

GET请求分为:域名,请求路径和参数三个部分,用于签名计算的有:
请求路径:/ws/place/v1/search?
请求参数:boundary=region({},0)&key={}&keyword={} &page_index={}&page_size=20
注意{}是待填充的

1. 首先对参数进行排序:按参数名升序(本例结果为 boundary 在前,key在后,如果第一个字母相同,要依据第二个字母升序):
boundary=region({},0)&key={}(....后面略)

2. 签名计算(sig):
请求路径+”?”+请求参数+SK进行拼接,并计算拼接后字符串md5值,即为签名(sig):
要求:请求参数必须是未进行任何编码(如urlencode)的原始数据
md5(" /ws/place/v1/search?boundary=region({},0)&key={}&keyword={} &page_index={}&page_size=20你的SK")

计算得到结果类似为:22dxxxxxxxxxxxxxx2b0bcc0e50

3. 生成最终请求:将计算得到的签名sig,放到请求中(参数名即为:sig):
https://apis.map.qq.com/ws/place/v1/search? boundary=region({},0)&key={}&keyword={} &page_index={}&page_size=20&sig= 22dxxxxxxxxxxxxxx2b0bcc0e50

注意:计算 sig 要使用原始参数值,不要进行任何编码,但最终发送时的参数,是需要时行url编码的

最后拿到返回的值,里面带有所有结果的地理位置及结果的数量。

2.2 按地点返回结果

这一部分其实很简单,就是调用2.1的函数,然后实现分页保存变量,最后输出门店数量,返回数据。

7c19df8e7cea6e44f4e226d691fa7fa3.png

计算一线城市的结果如下:

F:push20200315>python scrapy.py瑞幸咖啡 北京 门店总数为:492瑞幸咖啡 上海 门店总数为:581瑞幸咖啡 广州 门店总数为:301瑞幸咖啡 深圳 门店总数为:260

4.汇总结果并保存

接下来我们需要汇总2.2计算到的每个城市的数据,保存到json文件,并计算总数。

adfc69f47a0b9c0e5e67e5556d26ed63.png

最终可以获得一个 瑞幸咖啡.json 的文件,里面存有每个城市的咖啡店精确位置,并输出一个总数,这样调用即可:

f237e47453bf8a8219d01f7c6a96fc7a.png
F:push20200315>python scrapy.py瑞幸咖啡 北京 门店总数为:492瑞幸咖啡 上海 门店总数为:581瑞幸咖啡 广州 门店总数为:301瑞幸咖啡 深圳 门店总数为:260瑞幸咖啡 一线城市门店总数为:1634星巴克 北京 门店总数为:380星巴克 上海 门店总数为:797星巴克 广州 门店总数为:209星巴克 深圳 门店总数为:201星巴克 一线城市门店总数为:1587

看来瑞幸咖啡一线城市里的门店数量为:1634 已经超过星巴克的1587,不愧是割资本主义国家韭菜,造福中国老百姓的企业啊!

5.扩展

就像文章开头所提到的,如果你需要算出每个城市的咖啡店数量其实也很简单,咱可以调用下面这个接口请求腾讯地图的所有行政区数据,获得所有城市的名称:
https://apis.map.qq.com/ws/district/v1/list

不过我已经dump了一个,文末给出数据链接。

59df7808b39a03a7c82a12afbbc9a1b7.png

使用这一个,你只需要读取该csv文件提取所有城市名,然后放入cities变量中进行计算,如下代码所示:

fa8b946613952aa6985df4e2a16390b9.png

请注意一些特殊情况,比如说那个城市没有数据的时候,接口可能不会返回date数据,这时候要用字典的get方法进行处理:

# pois = res.json()['data']pois = res.json().get('data', [])

值得提醒你的是,如果你要计算全国的数据的话,这个方法并不可靠,因为无法避免山寨店的存在,山寨店一样也会被记入到腾讯地图中,而一线城市的监管严格,比较少出现山寨店的情况,因此可以用这个方法计算。

如果想统计全国的店铺数还需要添加一些筛选、清晰手段,这些就留给大家自己思考吧!

源码获取私信小编01获取!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值