大区域百度POI爬取

任务背景

需要爬取川、渝、滇、黔、藏五省(直辖市)的加油站POI数据。百度地图开放平台的地点检索API提供了这样的功能。但API每次最多返回400条数据,且每日有配额的限量(普通用户2万次/天,认证开发者3万次/天)。如果范围过大,将不易进行数据的爬取。
在这里插入图片描述

准备

  1. 在ArcGIS中查看五地的经纬度范围(右键图层–>属性–>源),这是在WGS84下的经纬度坐标,记下来。
    在这里插入图片描述
  2. 在爬取时选择的是在python中使用API,可能电脑不一定有python的环境或者所需要的包,因此可以使用百度自家百度大脑AI Studio的在线免费Notebook环境。
  • 首先进入百度大脑https://aistudio.baidu.com/aistudio/index到AI Studio中,注册登陆,进入个人中心,选择项目。
    在这里插入图片描述

  • 找到项目(已经写好了)——百度POI爬取
    在这里插入图片描述

  • fork项目(选择最新版本V3吧,之前的V2经纬度有点混乱),这样在自己的项目中就有了这个公开项目。
    在这里插入图片描述

  • 到自己的项目中,运行这个项目,选择基础版免费版即可。
    在这里插入图片描述

  1. 然后需要用到百度的API进行爬取,所以需要一个百度地图API的AK。
  • 进入百度地图开放平台http://lbsyun.baidu.com/,登录。点击控制台–>应用管理–>我的应用,选择创建应用。
    在这里插入图片描述
  • 选择浏览器端,白名单打上*号,名字自己取一个。
    在这里插入图片描述
  • 这样在应用界面就能看到了,鼠标指向AK的代码点击出现的复制按钮即可复制。
    在这里插入图片描述

开始爬取

  1. 进入AI Studio中刚刚进入的百度POI爬取项目的Notebook,在最上面有个参数配置,只用修改这里,在下方的Cell中就是一些配置,其他参数如下:
  • AK就是把自己在百度地图开放平台弄到的AK复制到baidu_web_ak中
  • 范围就按照之前记录的ArcGIS中区域的范围填入下方范围中
  • 滑动窗口大小可以根据情况修改,意思就是以多大经纬的框进行滑动,每个框分别提取数据(不宜过大,因此每次最多400条数据,越小就越不容易漏掉数据,默认0.5度(之前V2默认的5度太大了,数据缺很多))
  • 索引号表示从第几个框开始(因为每日有限额,如果数据很多,一天爬不完,就可以记录下今天爬到了那一个区域,第二天修改索引号为区域号,继续开始爬取)
  • 兴趣区关键字是表示要爬取的兴趣区包含哪些关键字
  • 保存目录是结果txt和log保存的目录
    在这里插入图片描述
  1. 完毕之后,重启并运行全部代码。
    在这里插入图片描述
  2. 接下来就能在最后看到中间结果的输出。
    在这里插入图片描述
  3. 等待爬取完成后,显示空闲,在文件夹中进入output文件夹(自己设置的文件夹),就可以看到txt了。鼠标指向txt,选择弹出框的第二个下载按钮,下载这个txt到本地电脑上。
    在这里插入图片描述
  4. OK了,打开下载下来的txt看看。有1000多条数据。
    在这里插入图片描述

最终处理

  1. 将txt用记事本打开另存为ANSI编码,将txt后缀改为csv。
  2. 用Excel打开此csv,使用数据分列,按‘,’分开,保存为xls(我的打开就是分好了的,可能高版本的Excel会自动处理,这个不清楚)。
  3. 表头添加一行,打上列标题:名称,经度,纬度,地区,详细地址。
  4. 打开ArcGIS,使用添加XY数据,将此xls导入,选择对应的经纬度(好像5x5的块太大了,翻车车,改成0.5重新跑了一下,有13000左右的数据),再导出为shp数据。
  5. 最后将数据加载到ArcGIS中,使用五地区域进行一个裁剪(分析工具–>提取分析–>裁剪),就得到了在五地的加油站数据。给个最终结果图(裁剪前后)如下。
    在这里插入图片描述
    在这里插入图片描述
    这就是五地密密麻麻的加油站了
  • 4
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
### 回答1: Google POI爬取指的是使用网络爬虫程序对Google上的POI(点 of interest)进行自动化爬取的过程。POI是指地图上的一些地标、商家、景点、公共设施等,通常包括名称、地址、电话、经度、纬度等信息。这些信息对于地图应用、智能导航等方面非常重要,因此许多公司都会尝试通过爬取POI信息来进行商业化开发。 Google是目前全球最大的的互联网公司之一,其网站上包含了大量的POI信息。但是,Google的数据采集和存储都有一定的限制,因此对Google POI进行爬取时要注意相关的法律法规,不得侵犯用户隐私或导致其他安全问题。此外,Google对于频繁访问其网站数据也有一定的反爬机制,需要注意规避封禁或限制。 Google POI爬取的难点主要在于数据量庞大、结构不统一、数据质量不一等方面。因此,需要使用一定的技术手段,如机器学习、自然语言处理、数据清洗等,来优化数据提取和处理的方式。 总的来说,Google POI爬取可以帮助我们获得大量的有用信息,为地图服务和其他商业化应用提供支持。但是,在进行爬取时要注意合法合规,充分保护用户隐私和安全。 ### 回答2: 谷歌POI爬取是指通过专业的软件工具和技术手段从谷歌地图上爬取特定位置的信息。POI代表着“点 of interest”的缩写,它是指在地图上标记的有意义的地点信息。例如,商店、餐馆、公园、学校、医院等等。通过谷歌POI爬取技术,我们可以获取到很多有用的信息,包括位置、名称、地址、电话、评级等等。 在实际应用中,谷歌POI爬取主要应用于商业和科研领域。商业上,谷歌POI爬取可以帮助企业进行市场调研、商业分析、推销营销等业务。科研方面,谷歌POI爬取可以帮助研究人员分析城市的人口、流动、交通等行为特征,以及了解城市发展趋势、研究城市规划等。 谷歌POI爬取技术的具体步骤包括:选择目标区域、确定爬取内容、开发程序进行爬取、整理和分析数据。爬取程序可以通过谷歌地图API和网络爬虫等技术实现。同时,需要注意的是,在使用谷歌POI爬取技术时应遵守相关法律法规,避免侵犯他人的隐私或其他权益。 ### 回答3: 谷歌POI爬取是指通过网络爬虫对谷歌地图上的兴趣点(POI)进行数据采集的过程。在现代数字化时代,随着电子地图的普及和谷歌地图等应用的发展,有越来越多的企业和个人需要从谷歌地图中获取特定的POI数据,如商家信息、地址、联系方式等。通过谷歌POI爬取的方法,可以实现快速、准确、自动化地采集海量的POI数据,显著提高数据获取效率和数据的准确性。 谷歌POI爬取的过程需要借助网络爬虫技术,利用代码自动化爬取谷歌地图上的POI数据。爬取程序会访问特定的URL,通过检索关键词等方式获取POI数据,并进行数据清洗和格式转换,输出最终的数据结果。谷歌POI爬取的实现过程中要考虑到反爬虫策略和数据保密的问题,需要遵守相关的法律法规和道德规范,避免侵犯他人隐私和商业利益,避免被谷歌地图封禁或追究法律责任。 总之,谷歌POI爬取是针对谷歌地图上POI数据采集的一种有效方法,能够帮助企业和个人快捷地获取所需的POI数据,具有极高的实用性和经济效益。
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值