开始按计划实现流程。
一 区域分割。
这个步骤是整个方案比较关键的一步,区域分割的要求如下。不能太大,因为一个区域一个类别的POI数目不能超过400;覆盖要完全,要包括全市的市域;不能有重叠。
1
之前网上有人写了个程序,但是我觉得这种方式不好,覆盖不全。思路打开,所谓区域分割,好像和格网数据类似,于是我就找同事要了几种全市的格网数据,经过比较分析,2KM*2KM的格网基本能满足我的要求。
2
下一步,就是提取每个格网的最大最小坐标了,问题来了,格网数据里没有这些东西。有同事说,写个arcENGINE的程序就能提取出每个格网的最大最小坐标。我深以为然,但是作为一个懒人,作为一个不把自己定位为程序员的冒牌程序员,我的工作理念是想办法解决问题,而不是所有问题都有程序解决。于是在短暂的思考后,我先用arcgis自带的几何计算获取了每个格网的质心坐标,由于格网是2KM*2KM的正方形,使用arcgis字段计算器,将每个格网的最大最小坐标用质心坐标+_1KM就得到了,不到两分钟就解决了。写什么程序呢!
3
网格数据的坐标是84的,而我需要的是经纬度坐标。这个没办法,用程序转吧,找同事要了个坐标转换函数,嵌入我的ARCengine小程序里,最终得到了文章(一)里我所需要的txt文件。
二 爬虫程序编写
整体过程就是使用txt中每一行(格网的最大最小坐标)去调用百度api,用爬虫去爬的html,将获取的值存入数据库。具体代码细节我就不赘述了