8小时Python零基础轻松入门
实习期间老板需要整合土地资源数据。之前由于都是在中国土地网上对每个城市的数据进行爬取,但是出于精益求精的精神,决定再对每个城市的自然资源和规划局再次进行爬取,这样可以对数据进行比对。或者添加新数据或者去重。
其实每个城市的自然资源和规划局网站结构基本类似,本次我们就拿徐州市来做一个案例分析。
爬取目标
如图所示。
我们爬取字段如下:
- 行政区
- 项目名称
- 项目位置
- 合同编号
- 电子监管
- 面积_公顷
- 土地来源
- 供地方式
- 土地使用年限
- 行业分类
- 土地用途
- 土地级别
- 成交价格_万元
- 土地使用权人
- 约定容积率_下限
- 约定容积率_上限
- 约定交地时间
- 约定开工时间
- 约定竣工时间<