抓取翻页_简易数据分析（七）：Web Scraper 抓取表格、分页器翻页数据

最新推荐文章于 2023-07-27 14:18:22 发布

Flipboard红板报

最新推荐文章于 2023-07-27 14:18:22 发布

阅读量633

点赞数

文章标签：抓取翻页

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34871733/article/details/112637397

版权

本文介绍了如何使用 Web Scraper 工具抓取网页表格数据，包括创建 Sitemap、理解表格结构以及处理分页器。在实践中遇到的中文关键字索引问题导致数据丢失，作者建议避免使用 Table Selector，并提供了替代方案，即通过创建子选择器来抓取表格数据。此外，文章还提到现代网站倾向于避免使用原始 HTML 表格，增加了抓取的复杂性。

摘要由CSDN通过智能技术生成

今天我们讲讲如何抓取网页表格里的数据。首先我们分析一下，网页里的经典表格是怎么构成的。

First Name 所在的行比较特殊，是一个表格的表头，表示信息分类
2-5 行是表格的主体，展示分类内容

经典表格就这些知识点，没了。下面我们写个简单的表格 Web Scraper 爬虫。

1.制作 Sitemap

我们今天的练手网站是

http://www.huochepiao.com/search/chaxun/result.asp?txtChuFa=%C9%CF%BA%A3&txtDaoDa=%B1%B1%BE%A9

爬虫的内容是抓取上海到北京的所有列车时刻表。

我们先创建一个包含整个表格的 container，Type 类型选为 Table，表示我们要抓取表格。

具体的参数如上图所示，因为比较简单，就不多说了。

在这个面板下向下翻，会发现多了一个不一样的面板。观察一下你就会发现，这些数据其实就是表格数据类型的分类，在这个案例里，他把车次、出发站、开车时间等分类都列了出来。

在 Table columns 这个分类里，每一行的内容旁边的选择按钮默认都是打勾的，也就是说默认都会抓取这些列的内容。如果你不想抓取某类内容，去掉对应的勾选就可以了。

在你点击 Save selector 的按钮时，会发现 Result key 的一些选项报错，说什么 invalid format 格式无效：

解决这个报错很简单，一般来说是 Result key 名字的长度不够，你给加个空格加个标点符号就行。如果还报错，就试试换成英文名字：

解决报错保存成功后，我们就可以按照 Web Scraper 的爬取套路抓取数据了。

2.为什么我不建议你用 Web Scraper 的 Table Selector？

如果你按照刚刚的教程做下里，就会感觉很顺利，但是查看数据时就会傻眼了。

刚开始抓取时，我们先用 Data preview 预览一下数据，会发现数据很完美：

抓取数据后，在浏览器的预览面板预览，会发现车次这一列数据为 null，意味着没有抓取到相关内容：

我们下载抓取的 CSV 文件后，在预览器里打开，会发现车次的数据出现了，但出发站的数据又为 null 了！

这不是坑爹呢！

关于这个问题我调

最低0.47元/天解锁文章

Flipboard红板报

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。