爬虫批量保存网页html,2分钟带你学会网络爬虫:Excel批量爬取网页数据(详细图文版)...

面对网页大量的数据,有时候还要翻页,你还在一页一页地复制粘贴吗?别人需要几小时完成的任务,学会这个小技巧你只需要几分钟就能解决。快来学习使用Excel快速批量地爬取网页数据吧!

1、分析网页数据结构

观察要爬取数据的网页结构,如要获取印尼农药登记数据,打开网页:

http://pestisida.id/simpes_app/rekap_formula_nama.php?s_keyword=&rekap_formula_nama1Page=1

可以看到,我们要获取总共74页的数据,而网页中的参数则代表了不同的参数,在网址中的最后一个参数就是页码数,将“1”改成1-74的数字就是我们要爬取的网址。

171320409_1_2019091808450151

2、爬取单个网页数据

1)打开Excel 2019,依次点击“数据”→“自网站”

171320409_2_20190918084501254

2)在弹出的“从Web”对话框中选“高级”,在“URL部分”第一栏中输入不含有参数的网址,如:http://pestisida.id/simpes_app/rekap_formula_nama.php?s_keyword=&rekap_formula_nama1Page=,在第二栏中输入1表示抓取第一页的数据,最后点击“确定”。

如果有多个参数,则每个参数设置为一栏。

171320409_3_20190918084501645

3)在弹出的“导航器”对话框中,选中左边需要的数据,右边可以预览到抓取的数据,最后点“编辑”,这样就可以抓取到一页网页的数据了。

171320409_4_20190918084501832

3、爬取多个网页数据

1)在弹出的“Power Query编辑器”的编辑界面中,依次选择“开始”→“高级编辑器”,在编辑框的“let”前面加入语句“(p as number) as table =>”,并将“源”后面的网页参数“1”换成“(Number.ToText(p))”(不含引号),检查没有语法错误后点击“完成”,返回“Power Query编辑器”的编辑界面。

171320409_5_2019091808450298

2)在返回的“Power Query编辑器”的编辑界面中,点击左边的“查询”栏上的箭头“>”,可以修改函数的名称,如“Indonesia Pesticide”。

171320409_6_20190918084502457

3)依次点击“开始”→“新建源”→“其他源”→“空查询”,在函数编辑栏中输入“” ,即要爬取的网页数,回车,生成序列,最后点中任意数列的值,选择“到表”,在弹出的“到表”对话框中点击确定即可。

171320409_7_20190918084502754

171320409_8_201909180845034

171320409_9_20190918084503301

4)选中左边栏的“查询1”,依次点击“添加列”→“调用自定义函数”,弹出“调用自定义函数”对话框中,在“功能查询”下拉菜单中选择刚才命名的函数“Indonesia Pesticide”,其它的会自动填写,点击“确定”就开始爬取网页数据了。

171320409_10_20190918084503551

171320409_11_20190918084503785

4、保存网页爬取数据

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值