FME循环抓取百度POI数据——不受最大返回数限制

最新推荐文章于 2023-07-31 15:25:01 发布

杠铃和薯条

最新推荐文章于 2023-07-31 15:25:01 发布

阅读量874

点赞数 2

分类专栏： FME相关文章标签： poi 爬虫

本文链接：https://blog.csdn.net/luobengge/article/details/110881677

版权

FME相关专栏收录该内容

9 篇文章 7 订阅

订阅专栏

FME循环抓取百度POI数据——不受最大返回数限制

前文
- 接口介绍
- 模版实现思路

前文

先说本次模版特点，本文是根据百度开放API的矩形搜索接口，进行网络请求从而获取POI数据的。由于上述限制，普通百度开放平台用户，单日访问次数有限，每次请求返回数据量只能获取到120条数据。
本次模版可以实现数据翻页，当单个矩形范围内返回数据超过120条记录，会对矩形进行四分，理论上不会因为范围内数据超过120条，而导致丢失数据。
但是，因为所使用的方法受限于百度AP的原因，所获取到的数据也不会是最完全的。（实际情况是遗漏的数据还挺多，毕竟是白嫖……）
基本上还是在百度矩形搜索接口的给你画的大框框内玩耍，对此成果，我感觉并不满意。
之前看到有大佬提供的思路，可以通过对JS接口进行抓包分析，不知道这个效果怎么样。不过我暂时也没时间，暂且记录一下这个模版，以后有时间再补。

接口介绍

基本模版如下图所示
模版参数
进行POI数据抓取的最核心，就是接口

http://api.map.baidu.com/place/v2/search?query=银行&bounds=39.915,116.404,39.975,116.414&output=json&ak={您的密钥} //GET请求

具体的参数说明，看接口文档。
这里只讲我们所运用到的几个参数

query是根据百度开放平台POI数据的一级分类，多个分类可用“$”分隔；
ak为百度开放平台秘钥，需要自己申请。
bounds为搜索的矩形区域的左下，右上角的坐标。格式为“lat（纬度）,lng（精度）”的表现形式，不要弄错了。
page_size和page_num是在接口文档内没有介绍的参数，前者为单页最大数据量，后者为当前页数。
受接口限制，单页最大数据量为20个，范围内最大数据量
为120。

模版实现思路

第一步是构建网络请求的URL
在这里插入图片描述
如图所示：

最终创建完的接口如下所示：

http://api.map.baidu.com/place/v2/search?ak=@Value(ak)&output=json&scope=2&coord_type=1&ret_coordtype=gcj02ll&bounds=@Value(bounds)&q=@Value(_encoded)&page_size=20&page_num=0

了解FME的也不需要多说，都知道对应的参数代表什么。
默认当前为返回数据的起始页。
在这里插入图片描述
随后就是根据构建的URL对数据进行网络请求，请求后，先获取其"total"属性，因为上文所说，受接口限制，单页最大数据量为20个，范围内最大数据量为120。

因此需要对不同情况加以判断：
在这里插入图片描述
没有返回结果的数据的，直接从Rejected端口输出；在0到20之间的，不需要进行翻页操作，也可以直接返回，20-120之间，则需要进行翻页，超过120的，则直接对数据进行四分，然后重新请求。

在进行翻页操作，直接用的Cloner转换器。
对数据进行四分，原本之所以不用Tiler是因为其是一个阻塞式转换器，再创建循环时，有一点麻烦。因此，我直接用的AttributeCreator转换器，直接计算四分后的坐标点即可。

最后，自定义转换器链接
链接：https://pan.baidu.com/s/1bdjef_grTUsFjbZP7GtsqA
提取码：gdw0

杠铃和薯条

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
FME循环抓取百度POI数据——不受最大返回数限制

FME循环抓取百度POI数据——不受最大返回数限制前文接口介绍模版实现思路前文先说本次模版特点，本文是根据百度开放API的矩形搜索接口，进行网络请求从而获取POI数据的。由于上述限制，普通百度开放平台用户，单日访问次数有限，每次请求返回数据量只能获取到120条数据。本次模版可以实现数据翻页，当单个矩形范围内返回数据超过120条记录，会对矩形进行四分，理论上不会因为范围内数据超过120条，而导致丢失数据。但是，因为所使用的方法受限于百度AP的原因，所获取到的数据也不会是最完全的。（实际情况是遗漏的数据
复制链接

扫一扫

专栏目录