抓取 翻页_简易数据分析(七):Web Scraper 抓取表格、分页器翻页数据

本文介绍了如何使用 Web Scraper 工具抓取网页表格数据,包括创建 Sitemap、理解表格结构以及处理分页器。在实践中遇到的中文关键字索引问题导致数据丢失,作者建议避免使用 Table Selector,并提供了替代方案,即通过创建子选择器来抓取表格数据。此外,文章还提到现代网站倾向于避免使用原始 HTML 表格,增加了抓取的复杂性。
摘要由CSDN通过智能技术生成

30145a1fc6c8b59fc8644076248f762a.png

今天我们讲讲如何抓取网页表格里的数据。首先我们分析一下,网页里的经典表格是怎么构成的。

95aac32931d2a7b97e63c807fe71bf97.png

  • First Name 所在的行比较特殊,是一个表格的表头,表示信息分类

  • 2-5 行是表格的主体,展示分类内容

经典表格就这些知识点,没了。下面我们写个简单的表格 Web Scraper 爬虫。

1.制作 Sitemap

我们今天的练手网站是

http://www.huochepiao.com/search/chaxun/result.asp?txtChuFa=%C9%CF%BA%A3&txtDaoDa=%B1%B1%BE%A9

爬虫的内容是抓取上海到北京的所有列车时刻表。

我们先创建一个包含整个表格的 container,Type 类型选为 Table,表示我们要抓取表格。

475b7f17d0844665c649f43182374aca.png

具体的参数如上图所示,因为比较简单,就不多说了。

在这个面板下向下翻,会发现多了一个不一样的面板。观察一下你就会发现,这些数据其实就是表格数据类型的分类,在这个案例里,他把车次、出发站、开车时间等分类都列了出来。

a4cbfab36a8da0576f022fa955adc1e3.png

Table columns 这个分类里,每一行的内容旁边的选择按钮默认都是打勾的,也就是说默认都会抓取这些列的内容。如果你不想抓取某类内容,去掉对应的勾选就可以了。

在你点击 Save selector 的按钮时,会发现 Result key 的一些选项报错,说什么 invalid format 格式无效:

324ae0ab6aaa4345dc83783537ad6715.png

解决这个报错很简单,一般来说是 Result key 名字的长度不够,你给加个空格加个标点符号就行。如果还报错,就试试换成英文名字:

70e58961ccdf0e9e1814487ac8957754.gif

解决报错保存成功后,我们就可以按照 Web Scraper 的爬取套路抓取数据了。

2.为什么我不建议你用 Web Scraper 的 Table Selector?

如果你按照刚刚的教程做下里,就会感觉很顺利,但是查看数据时就会傻眼了。

刚开始抓取时,我们先用 Data preview 预览一下数据,会发现数据很完美:

ee70f65d86ee11c97fcfb0a391aab047.png

抓取数据后,在浏览器的预览面板预览,会发现车次这一列数据为 null,意味着没有抓取到相关内容:

035c5c182caf7893af26e0c072badee4.png

我们下载抓取的 CSV 文件后,在预览器里打开,会发现车次的数据出现了,但出发站的数据又为 null 了!

0b8f80fb2e9fc5fb0e6e355a13d0f4bd.png

这不是坑爹呢!

关于这个问题我调

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值