长久以来,我和小伙伴们都被 Kaggle 网站的加载速度困扰着,比如最近在用 Kaggle 上的数据集测试模型效果时,遇到排行榜(Leaderboard)刷新困难的问题。于是我们开始探索解决方案。
首先尝试直接使用页面链接进行数据爬取,很明显爬不到,因为 Kaggle 的数据是异步响应的。于是我打开 Leaderboard 页面的开发者工具,以著名的 Titanic 竞赛的排行榜为例,打开 Network 选项,查看 XHR 项,然后 ctrl+R 刷新页面,可以看到如下列表:
我用红框圈起来的这个就是我们要找的排行榜数据,点击它后可以看到它的 Request URL 如下:
然后把这个链接复制到浏览器打开,就可以看到一大段 JSON 形式的排行榜数据: