高德POI采集方法与大数据分析

26 篇文章 3 订阅
25 篇文章 9 订阅

3.1 poi是什么
POI 是 Point of Interest 的缩写。在电子地图上,POI 代表餐厅、超市、政府机关、旅游景点、交通设施等等 。POI是电子地图的核心数据。对普通用户而言,POI 数据包含的名称和位置信息,能够满足其使用电子地图“查找目的地”,进而唤起导航服务的基本需求;对电子地图而言,通过提供“搜索附近”、“点评”等服务,可提高用户的活跃时长。另外,POI数据是线上线下连接互动的一个纽带,是基于位置服务(Location Based Service)产业的一个重要组件。高德通过自有海量的图像源,来保证现实世界的每一个新增的POI及时制作成数据。
采集POI是一项长期、艰巨的工作任务,路漫漫其修远兮吾将上下而求索。
3.2 高德时尚技术
图像检索是在高德地图数据自动化生产中的一次尝试,取得了不错的效果,并且已在实际业务中使用。但是模型并不是完美的,仍会存在Corner case,为了解决这些case,未来将会从半监督学习/主动学习自动补充数据,以及引入Transformer[9,10]优化特征提取和融合两方面进行探讨。
1 数据:基于半监督学习/主动学习的数据挖掘
数据是非常重要的,因为模型很难做到完美,总是会存在Corner case,而解决Corner case的一个非常高效的手段就是针对性补充数据。补充数据的关键是如何挖掘Corner case以及如何自动标注,该方向也是目前学术的研究热点,即半监督学习以及主动学习。
半监督学习利用有标签数据训练出的模型来对海量无标签数据产生伪标签,进一步标签数据和伪标签数据混合后再优化模型。主动学习是利用有标签数据训练出的模型对海量无标签数据进行数据挖掘,并人工标注挖掘出的有价值数据。两者区别在于是否需要部分人工标注,半监督学习是完全由模型自身产生标签,但是可能导致模型效果存在上限,而主动学习则可以一定程度可提高该上限,因此未来需要深入研究两者的结合,从而更好的补充训练数据,解决Corner case。
2 模型:基于Transformer的特征提取与融合
Transformer是目前学术的研究热点,大量的工作已证明其在分类、检测、分割、跟踪以及行人重识别等任务上的有效性。和CNN相比,Transformer具有全局感受野以及高阶相关性建模的特点,使其在特征提取上有着更好的表征能力。
此外,Transformer的输入较为灵活,可以方便地将其他模态信息进行编码,并和图像特征一起输入到模型中,因此其在多模特征融合上也有较大的优势。综上来看,Transformer可以通过对图像Patch的相关性建模来解决POI牌匾在遮挡/截断场景下的匹配效果,并且可以通过对文本特征编码来实现多模特征的融合。

3.3 高德poi如何采集
poi采集是一项艰巨复杂的工作,我们自主研发了互联网信息采集平台可自动采集高德poi、百度poi、链家数据、aoi、路网等互联网数据。
已经拥有2005poi来源于谷歌;2008-2015poi来源于百度;有2022百度poi;2016至今来源于高德;统一了高德类型(23个大类,上百个中类,上千个小类)。2019-2022国外poi数据。我们10多名资深的工程师竭诚为您服务,具有海量大数据处理能力和三维gis研发能力。
3.3.1 申请KEY
第一步,申请”Web服务API”密钥(Key);
第二步,拼接HTTP请求URL,第一步申请的Key需作为必填参数一同发送;
第三步,接收HTTP请求返回的数据(JSON格式),解析数据。
如无特殊声明,接口的输入参数和输出数据编码全部统一为UTF-8。
3.3.2 使用说明
• 关键字搜索:通过用POI的关键字进行条件搜索,例如:肯德基、朝阳公园等;同时支持设置POI类型搜索,例如:银行
• 周边搜索:在用户传入经纬度坐标点附近,在设定的范围内,按照关键字或POI类型搜索;
• 多边形搜索:在多边形区域内进行搜索
• ID查询:通过POI ID,查询某个POI详情,建议可同输入提示API配合使用
3.3.3 关键字搜索
URL
https://restapi.amap.com/v3/place/text?parameters
请求方式 GET
3.3.4 周边搜索
周边搜索API服务地址:
URL https://restapi.amap.com/v3/place/around?parameters
请求方式 GET
3.3.5 多边形搜索
多边形搜索API服务地址:
URL https://restapi.amap.com/v3/place/polygon?parameters
请求方式 GET
3.3.6 ID查询
ID查询搜索API服务地址:
URL https://restapi.amap.com/v3/place/detail?parameters
请求方式 GET

3.3.7 部分代码
Blob lblb_data
boolean lb_execute
long ll_failNum = 0
string ls_error
long ll_status
n_pbfunc_http lnv_http
lnv_http.of_clear()//清空参数
string ls_url

string ls_gaodeKey
ls_gaodeKey=as_key

//“info”:“OK”
If gi_connectdb= 1 Then

ls_url=ProfileString("app.ini", "Service", "gaodeAddr", "")
//ls_url =ls_url + "v5/place/polygon?polygon="+wf_encode(as_polygon)+"&types="+wf_encode(as_types)+"&output=json&offset=25&page="+string(al_page)+"&key="+ls_gaodeKey+"&extensions=all"

ls_url =ls_url + "v5/place/polygon?polygon="+wf_encode(as_polygon)+"&types="+wf_encode(as_types)+"&output=json&page_size=25&page_num="+string(al_page)+"&key="+ls_gaodeKey//+"&extensions=all"
gf_writesj(string(datetime(today(),now()))+'多边形'+ls_url)
lnv_http.of_set_URL(ls_url)
gf_writesj(string(datetime(today(),now()))+'lnv_http.of_set_URL(ls_url)')
//lnv_http.of_add_header("Accept","text/html, application/xhtml+xml, image/jxr, */*")
//lnv_http.of_set_ContentType("application/json; charset=utf-8")
lb_execute =  lnv_http.of_Get(lblb_data,ls_error,ll_status) 
gf_writesj(string(datetime(today(),now()))+'lnv_http.of_Get(lblb_data,ls_error,ll_status) ')
IF ll_status <> 200 Then lb_execute = false
Do While (Not lb_execute)
	IF ll_failNum > 3 Then
		Exit
	End IF
	ll_failNum ++
//	sleep(1)   20200821
	lb_execute =  lnv_http.of_Get(lblb_data,ls_error,ll_status) 
	gf_writesj(string(datetime(today(),now()))+'lnv_http.of_Get(lblb_data,ls_error,ll_status) 2')
	IF ll_status <> 200 Then lb_execute = false
Loop
IF lb_execute Then	
	string gbkData
	gbkData = lnv_http.of_utf8ToGbk(lblb_data)//由于返回来的是utf-8编码,直接显示会乱码
	gf_writesj(string(datetime(today(),now()))+' lnv_http.of_utf8ToGbk(lblb_data) ')
	as_data = gbkData

// MessageBox(ls_url,as_data)
End IF

return lb_execute

End If

3.4 Poi大数据分析
Poi散点图

单轴POI散点图
3.5 数据特点
全:数据翔实
新:持续更新;
广:全球范围;
易:使用简易,2005-至今所有年份类型统一;
快:提高了80%的工作效率;
0、支持实时抓取数据!
1、数据的每次更新不是把历史数据去重累加,而是完全全国重新获取一遍,完全是最新的数据!
2、数据包括全国各城市省.市.县区.街道乡镇.村POI数据,数据包括POI名称、分类、分类代码、省份及代码、市及代码、区县及代码、电话、地址、经纬度(火星坐标、WGS坐标、百度坐标)等等信息;详见样列。
3、类型为各行各业数据,可按类型购买,也可按省或市区域购买,类型有餐饮服务,风景名胜,购物服务, 金融保险服务,科技文化服务,公司企业,汽车服务,体育休闲,医疗保健服务,酒店宾馆等等很多分类。
4、可提供的数据格式包括Excel格式、mapinfo tab、sqlserver、oracle、mysql、arcgis shp(wgs84)和mdb格式,csv等格式,该数据均为规范化的数据,便于检索、分析、统计报表,凡在本店购买数据者,均提供免费坐标转换服务。
5、10多名数字地球科研所成员具有丰富的经验、高技术、高学历、清华/北大/深圳大学研究生院等、均具有较强的空间数据、spark大数据处理能力,可选择合作的方式进行,比如课题合作,项目合作以及论文合作等。

3.6 数据样图
链接: https://pan.baidu.com/s/1YNw0yP_Mc21Q_rWWd9Iamg
提取码:7777

  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值