使用python及百度API对百度poi数据进行爬取(二)

开始按计划实现流程。

一  区域分割。

这个步骤是整个方案比较关键的一步,区域分割的要求如下。不能太大,因为一个区域一个类别的POI数目不能超过400;覆盖要完全,要包括全市的市域;不能有重叠。

1

之前网上有人写了个程序,但是我觉得这种方式不好,覆盖不全。思路打开,所谓区域分割,好像和格网数据类似,于是我就找同事要了几种全市的格网数据,经过比较分析,2KM*2KM的格网基本能满足我的要求。

2

下一步,就是提取每个格网的最大最小坐标了,问题来了,格网数据里没有这些东西。有同事说,写个arcENGINE的程序就能提取出每个格网的最大最小坐标。我深以为然,但是作为一个懒人,作为一个不把自己定位为程序员的冒牌程序员,我的工作理念是想办法解决问题,而不是所有问题都有程序解决。于是在短暂的思考后,我先用arcgis自带的几何计算获取了每个格网的质心坐标,由于格网是2KM*2KM的正方形,使用arcgis字段计算器,将每个格网的最大最小坐标用质心坐标+_1KM就得到了,不到两分钟就解决了。写什么程序呢!

3

网格数据的坐标是84的,而我需要的是经纬度坐标。这个没办法,用程序转吧,找同事要了个坐标转换函数,嵌入我的ARCengine小程序里,最终得到了文章(一)里我所需要的txt文件。

二 爬虫程序编写

 

 

整体过程就是使用txt中每一行(格网的最大最小坐标)去调用百度api,用爬虫去爬的html,将获取的值存入数据库。具体代码细节我就不赘述了࿰

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值