前文
先说本次模版特点,本文是根据百度开放API的矩形搜索接口,进行网络请求从而获取POI数据的。由于上述限制,普通百度开放平台用户,单日访问次数有限,每次请求返回数据量只能获取到120条数据。
本次模版可以实现数据翻页,当单个矩形范围内返回数据超过120条记录,会对矩形进行四分,理论上不会因为范围内数据超过120条,而导致丢失数据。
但是,因为所使用的方法受限于百度AP的原因,所获取到的数据也不会是最完全的。(实际情况是遗漏的数据还挺多,毕竟是白嫖……)
基本上还是在百度矩形搜索接口的给你画的大框框内玩耍,对此成果,我感觉并不满意。
之前看到有大佬提供的思路,可以通过对JS接口进行抓包分析,不知道这个效果怎么样。不过我暂时也没时间,暂且记录一下这个模版,以后有时间再补。
接口介绍
基本模版如下图所示
进行POI数据抓取的最核心,就是接口
http://api.map.baidu.com/place/v2/search?query=银行&bounds=39.915,116.404,39.975,116.414&output=json&ak={您的密钥} //GET请求
具体的参数说明,看接口文档。
这里只讲我们所运用到的几个参数
query是根据百度开放平台POI数据的一级分类,多个分类可用“$”分隔;
ak为百度开放平台秘钥,需要自己申请。
bounds为搜索的矩形区域的左下,右上角的坐标。格式为“lat(纬度),lng(精度)”的表现形式,不要弄错了。
page_size和page_num是在接口文档内没有介绍的参数,前者为单页最大数据量,后者为当前页数。
受接口限制,单页最大数据量为20个,范围内最大数据量
为120。
模版实现思路
第一步是构建网络请求的URL
如图所示:
最终创建完的接口如下所示:
http://api.map.baidu.com/place/v2/search?ak=@Value(ak)&output=json&scope=2&coord_type=1&ret_coordtype=gcj02ll&bounds=@Value(bounds)&q=@Value(_encoded)&page_size=20&page_num=0
了解FME的也不需要多说,都知道对应的参数代表什么。
默认当前为返回数据的起始页。
随后就是根据构建的URL对数据进行网络请求,请求后,先获取其"total"属性,因为上文所说,受接口限制,单页最大数据量为20个,范围内最大数据量为120。
因此需要对不同情况加以判断:
没有返回结果的数据的,直接从Rejected端口输出;在0到20之间的,不需要进行翻页操作,也可以直接返回,20-120之间,则需要进行翻页,超过120的,则直接对数据进行四分,然后重新请求。
在进行翻页操作,直接用的Cloner转换器。
对数据进行四分,原本之所以不用Tiler是因为其是一个阻塞式转换器,再创建循环时,有一点麻烦。因此,我直接用的AttributeCreator转换器,直接计算四分后的坐标点即可。
最后,自定义转换器链接
链接:https://pan.baidu.com/s/1bdjef_grTUsFjbZP7GtsqA
提取码:gdw0