基于python的POI数据爬取、处理和使用(一)

本文介绍了作者使用Python进行POI数据爬取的实践过程,包括使用urllib和beautifulsoup进行网页抓取,通过多线程和数据库连接池提高效率,以及应对反爬虫策略。在遇到网络问题和IP被封后,作者调整策略,通过分离代码和使用代理IP成功爬取大量数据。
摘要由CSDN通过智能技术生成

   对于刚入职的半年的“新人”,多听听领导的建议还是大有裨益的。我们主任就说,新人要首先熟悉一下单位的业务,以及单位有哪些数据。在工作中,我就尽可能的了解一下这些,直到,我发现了POI数据。单位采集POI数据主要有两种方式,一是外业采集,这种方式的问题是人力投入较大,工期较长,也因为这个原因,数据更新速度也会较慢。二是直接找互联网公司买,这种方式简单粗暴,有钱就好使,至于问题。。。就是花的钱多。于是,我想了想,能不能使用网络爬虫去爬POI数据,成本低,效果不一定差。虽然单位不差钱,也不一定能采用我的方式,不过学习一下也有好处。

  首先是开发环境的搭建,我用的是python,编译器为VSCode(至于原因,一是随意选的,二是。。觉得好看)。我之前没有python的开发经历,选python就是为了顺便学习一下,毕竟ARCGIS现在对python的支持越来越好。

  然后进入爬虫阶段。我是小白,用的是urllib以及beautifulsoup。查看目标网页,发觉要爬POI数据,需要走如下几个步骤。

 1 在每一个列表页,爬取每一条POI数据对应的html页面

 2 进入每一条POI数据对应的html页面爬取需要的信息,如地址、名称、坐标等。

 3 将结果写入mysql数据库

思路确定了,开始写代码,第一个demo测试很成功,50条POI数据很快就写入了数据库。但是,往下走,问题就出来了,第一,速度好慢,n秒一条的速度,20几万的数据,要爬多久简单一算就知道了&#x

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值