基于python的POI数据爬取、处理和使用（一）

最新推荐文章于 2024-08-10 00:15:00 发布

chicharito1429

最新推荐文章于 2024-08-10 00:15:00 发布

阅读量1.4w

点赞数 5

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010723516/article/details/71213513

版权

本文介绍了作者使用Python进行POI数据爬取的实践过程，包括使用urllib和beautifulsoup进行网页抓取，通过多线程和数据库连接池提高效率，以及应对反爬虫策略。在遇到网络问题和IP被封后，作者调整策略，通过分离代码和使用代理IP成功爬取大量数据。

摘要由CSDN通过智能技术生成

对于刚入职的半年的“新人”，多听听领导的建议还是大有裨益的。我们主任就说，新人要首先熟悉一下单位的业务，以及单位有哪些数据。在工作中，我就尽可能的了解一下这些，直到，我发现了POI数据。单位采集POI数据主要有两种方式，一是外业采集，这种方式的问题是人力投入较大，工期较长，也因为这个原因，数据更新速度也会较慢。二是直接找互联网公司买，这种方式简单粗暴，有钱就好使，至于问题。。。就是花的钱多。于是，我想了想，能不能使用网络爬虫去爬POI数据，成本低，效果不一定差。虽然单位不差钱，也不一定能采用我的方式，不过学习一下也有好处。

首先是开发环境的搭建，我用的是python，编译器为VSCode（至于原因，一是随意选的，二是。。觉得好看）。我之前没有python的开发经历，选python就是为了顺便学习一下，毕竟ARCGIS现在对python的支持越来越好。

然后进入爬虫阶段。我是小白，用的是urllib以及beautifulsoup。查看目标网页，发觉要爬POI数据，需要走如下几个步骤。

1 在每一个列表页，爬取每一条POI数据对应的html页面

2 进入每一条POI数据对应的html页面爬取需要的信息，如地址、名称、坐标等。

3 将结果写入mysql数据库

思路确定了，开始写代码，第一个demo测试很成功，50条POI数据很快就写入了数据库。但是，往下走，问题就出来了，第一，速度好慢，n秒一条的速度，20几万的数据，要爬多久简单一算就知道了&#x

最低0.47元/天解锁文章

关注

5
点赞
踩
25

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。