xml界面如何从url地址中获取参数值 源码_不用编程如何快速爬取POI数据

bddeec1f2d8779dd46af053bc334ff71.gif

0f37a8de086c3c180b02e47672ecf288.png

    HAWK是一个数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页、数据库、文件,并通过可视化地拖拽,快速地进行生成、过滤、转换等操作。其功能最适合的领域,是爬虫和数据清洗;Hawk的含义为“鹰”,能够高效,准确地捕杀猎物。

开源项目主页: http://www.desertlambda.com/

1、POI地址:

https://www.poi86.com/poi/amap/district/350502/1.html

观察网址规则

a295a7a84e154327ec3be0944d256a29.png

aeb7a9d38f5ec5db9749b16fa7d3a2e8.png

观察网址,每地标名称点击链接,跳转到下一层页面才有经纬度信息,所有我们的目的是获取鲤城下面的所以地标链接地址http://www.poi86.com/poi/amap/623.html,前半部分是固定的,后面就是每个地标点的页面地址;HAWK 新建一个网页采集器,命名为链接采集,点击手气不错,获取对象,关闭-》选择 是  保存属性

7d3b01b8c0c2ded59f9ca93f576962d1.png

    由于链接是隐性标签,直接点击【手气不错】按钮获取不到地址,所以需要手动添加,浏览器按F12进入源码查看器:

235a236fb582f3adb74e360b448f974a.png

    观察链接在名称的前面,同属于一个td标签内,所以我们只要在地标名称的对象后面加个链接地址即可:

34c8290ccedcca2f9c1800cc50c7aef3.png

点击 提取测试  【按钮】,成功获取链接地址:

869d7c6e55da608760ee104ebbd74a2e.png

 新建一个网页采集器,命名为经纬度采集,主要是为了采集经纬度详细页:

输入第一个地标的经纬度页面地址:http://www.poi86.com/poi/amap/623.html

运气不好,直接点击【手气不错】按钮同样采集不到经纬度信息,所以我们需要自己添加,浏览器按F12进入源码界面,点击对象选区按钮,鼠标放在经纬度,在源码经纬度右键点击 拷贝 xpath路径

dec7cac9dff81cf70ac92d2cec262764.png

复制到软件中的Xpath中,同理自行添加其它字段:

9c11cf7d22c0d71410430929619543d0.png

同理添加其它字段:

5458b76352fdbabef21c88d174fe5304.png

点击手气不错按钮,获取完整信息,关闭选 是  保存。

b3865548e3721663d6100281d1ee5fc0.png

记得保存任务模版

2d06033f9192762aaa12d685b2e1ff58.png

新建一个数据清洗模块

观察鲤城下面共有1127页地标信息:

11189a1b2e65288d0cc3487bc70ba8c4.png

按浏览器地址测试,实际只有381页,382页已经没有数据

f97a127a2d3e97964555eb193ec57ee1.png

拖入【合并多列】模块到id,双击弹出窗口,,输出新列名:url, 复制网址格式导 format文本框,修改序列为:{0} 

19681a3d87837bb445ba7170337ebd3e.png

点击确认后 生成所有页面的网址。

6214f9cb9ff47c1cab6335bc7eb0a818.png

拖入【从爬虫转换】模块到URL,双击弹出窗口,输出爬虫选择:链接采集器

360a11423b67a80f6afe8c2a0bffc276.png

保存模块名称为 :链接清洗

5c8010fa3c36494fc53f868fd19f1f8c.png

保存后,,右边调试窗口 点击刷新按钮 生成结果:

b3d360f25b8e13fd6fd5d088c539183d.png

再拖入合并多列模块到链接,输入网址前缀,,组成完整的详细页网址:

e0f2f5a8a4db8f4d97807aca55d9cf9b.png

得到完整的网址:

51b0f4d16fb78b366c80874cfa3e7e76.png

再拖入一个 【从爬虫转换】 模块到 URL  爬虫选择  经纬度采集

b5ac81aa4143d8a0750338ea3af20f84.png

等待一会即可获取经纬度:

7148a9b3d05c12a557284d47df6e11b0.png

采集到此完成,,现在拖入【写入数据表】模块,命名为鲤城POI,获取所有数据:

ca0919597c698fecbe023b757062148b.png

选择 并行模式  执行:

8be6da64af200b79df79c25090cd8a17.png

702a0adfa195a117af0d37f94908953c.png

所有任务完成后,右键点击右下角 鲤城POI,另存EXCEL

da04930aa7f2d48d92ceb8c1e8bf9866.png

Excel表格如下

cb53efd1daf8a557978069a09c791ca3.png

总结:

共建立2个页面采集器和1个数据清洗。

1个数据清洗模块先获取地标的链接,拼成完整的链接地址,再从这个地址索引经纬度详细页的采集器。

更详细的方法请看本公众号另一篇文章,马上开启大神之旅:

Hawk开源爬虫软件爬取商圈

   如果喜欢别忘了关注点赞哦

db42ffe41304af731d6d9ad585528f5a.gif

bb307d413485b8662dc5bc657011ba91.png

1e845b4e7dbe21d6be409ba57da686d0.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值