python高德地图poi点_python3爬虫-高德地图POI数据的爬取

最新推荐文章于 2023-10-17 14:06:46 发布

weixin_39527879

最新推荐文章于 2023-10-17 14:06:46 发布

阅读量888

点赞数

文章标签： python高德地图poi点

前言

目的：本文试图爬取全北京市不同类别POI的所有数据。

大致流程：爬取北京市边界坐标

坐标映射到网格，得到北京市的边界网格

广度优先遍历，将整个北京市网格化

对每一个网格进行poi获取，当获取的数量过多时，对网格再次划分，递归查询

第一步，爬取北京市边界坐标

这里可以利用api来爬取，但为了方便，可以直接用高德地图的示例操作

1.2 更改参数并运行

1.3 在示例下的"districts"-->"0"-->"polyline"；得到边界坐标值，复制保存到本地 border.csv，可以在mapinfo下可视化。需要说明的是，爬取的边界有一个缺口，我将缺口的最近两个点途径的三个位置添加了上去。在border.csv中添加的三行数据如下：

115.805,40.415

115.815,40.405

115.825,40.395

第二步，映射边界网格，北京市网格化

2.1 首先需要设置几个参数

网格大小：0.1 * 0.1 ，这里直接将经纬度的0.1作为网格大小,这意味着网格精确度为0.1

北京市左下角和右上角坐标 : (115.42,39.44)(117.52,41.07)

jmin = 115.42

jmax = 117.52

wmin = 39.44

wmax = 41.07

div = 0.1 #设置间隔

2.2 然后，将边界坐标映射到网格。

def to_n(rows):

j = rows.iloc[0]

w = rows.iloc[1]

x = int((j-jmin)//div)

y = int((w-wmin)//div)

if x >= num_j: #防止落在边界上的点越界

x = num_j - 1

if y >= num_w:

y = num_w - 1

re[x][y] += 1

border = pd.read_csv('border.csv',header=None)

num_j = int((jmax-jmin)//div)

num_w = int((wmax-wmin)//div)

re = np.zeros([num_j,num_w]) #re存放落在每一个网格内的边界坐标个数

border = pd.read('border.csv',header=None) #border.csv存储边界坐标,有经纬度两列。

border.apply(to_n,axis=1,result_type='expand')

网格后的数据在mapinfo中可视化如下，下面是一个个的小方格。

2.3 从内部一个点出发，广度优先搜索，得到全市的网格数据

其实还有其他方法来实现网格化，但为了方(tou)便(lan)，这里直接从一个网格出发，我选择的是中心点，广度优先搜索，并在搜索过程中将走过的网格标记。

def BFS(x,y):

list1.append([x,y])

while len(list1)>0:

top = list1.pop()

xnow = top[0]

ynow = top[1]

if xnow<0:

return

re[xnow][ynow] = 1

#print(xnow,ynow)

if re[xnow+1][ynow]==0:

list1.append([xnow+1,ynow])

if re[xnow][ynow+1]==0:

list1.append([xnow,ynow+1])

if re[xnow-1][ynow]==0:

list1.append([xnow-1,ynow])

if re[xnow][ynow-1]==0:

list1.append([xnow,ynow-1])

list1 = []

BFS(int(num_j//2),int(num_w//2))

然后将网格映射到坐标，可以直接拿网格左小角作为映射结果。

for i in range(num_j):

for j in range(num_w):

if re[i][j]>0:

ix = round(i*div+jmin,2)

iy = round(j*div+wmin,2)

print(ix,',',iy)

得到的结果如下，图中的方格只是网格左小角坐标，大家懂意思就好：

第三步，对每一个网格爬取POI

这里需要介绍一下这一API的限制。高德地图规定每一个KEY每天只能调用2000次，经过测试，每一个账号可以申请10个KEY；在每一次调用“多边形搜索”API时，每一页最多返回25条数据，这意味着每天一个账号最多可获取50万条POI，这是最理想的情况，因为一页不可能总是满的。

同时，“多边形搜索”API最多只能返回一个多边形小于900的数据量；保险起见，当遇到某一个网格的POI数据量大于850的时候，需要再次划分网格进行递归查询。这一部分需要简单的调用requests和json库，构建URL参考请参考高德地图API文档-搜索POI中的“多边形搜索”，不多解释，完整代码如下。

import numpy as np

import pandas as pd

import requests

import json

def search_poi(x,y,divt,poi_type,page):

global keyi

global api_count

#构建URL

polygon = str(x)+','+str(y)+'|'+str(x+divt)+','+str(y+divt)

u= "https://restapi.amap.com/v3/place/polygon?key="+keys[keyi]+'&polygon='+polygon +'&types='+poi_type+'&extensions=all&output=json&offset=25&page='+str(page)

api_count += 1 #记录一次调用

#单个key超出2000次限额，更换key

if api_count>=2000:

keyi += 1

print("change key!now key is",keys[keyi])

api_count=0

#解析数据

data=requests.get(u)

s=data.json()

#查询错误

if s['status']!='1':

print('eror!')

return

#如果网格太大，递归查询

if int(s['count'])>800:

print("too much!count is"+s['count'])

search_poi(x,y,divt/2,poi_type,1)

search_poi(x+divt/2,y,divt/2,poi_type,1)

search_poi(x,y+divt/2,divt/2,poi_type,1)

search_poi(x+divt/2,y+divt/2,divt/2,poi_type,1)

return

#这里可以按照需求，修改成存储结果，我这里只做了输出

print('now location:',x,y,divt,';now page:',page,'now api count:',api_count)

if len(s['pois'])>0:

for i in range(len(s['pois'])):

print(s['pois'][i]['name'],s['pois'][i]['typecode'],s['pois'][i]['location'])

#若不止一页，查询下一页

if len(s['pois'])==25:

search_poi(x,y,divt,poi_type,page+1)

#main

keys = ['A','B','C','D','E','F','G','H','I','J']#自己申请的10个key

global keyi#当前使用的key编号

global api_count#每一个key调用api的次数

keyi = 0

api_count=0

div = 0.1 #设置网格大小

poi_type='150700'#当前搜索的POI类，具体参考

grid_jw = pd.read_csv('beijing_grid.csv',header=None) #保存的北京市网格数据

#对所有网格循环搜索POI

for index,rows in grid_jw.iterrows():

search_poi(rows[0],rows[1],div,poi_type,1)

(beijing_grid.csv存储之前得到的所有网格的左小角的经纬度)

每次只需要改变POI类，关于这一编码可以参考高德地图POI分类编码表；以及改变keyi，这个需要查看自己高德地图控制台的应用管理内的每一个KEY的额度。比如：

weixin_39527879

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python高德地图poi点_python3爬虫-高德地图POI数据的爬取

前言目的：本文试图爬取全北京市不同类别POI的所有数据。大致流程：爬取北京市边界坐标坐标映射到网格，得到北京市的边界网格广度优先遍历，将整个北京市网格化对每一个网格进行poi获取，当获取的数量过多时，对网格再次划分，递归查询第一步，爬取北京市边界坐标这里可以利用api来爬取，但为了方便，可以直接用高德地图的示例操作1.2 更改参数并运行1.3 在示例下的"districts"-->"0"--...
复制链接

扫一扫

python高德地图poi点_python3爬虫-高德地图POI数据的爬取

“相关推荐”对你有帮助么？