用 Python 写一个 Kaggle 比赛排行榜的爬虫

最新推荐文章于 2023-02-25 22:06:10 发布

风控大鱼

最新推荐文章于 2023-02-25 22:06:10 发布

阅读量935

点赞数 1

分类专栏： Python 数据科学爬虫文章标签： Python 爬虫 kaggle Python爬虫大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cyan_soul/article/details/103218008

版权

长久以来，我和小伙伴们都被 Kaggle 网站的加载速度困扰着，比如最近在用 Kaggle 上的数据集测试模型效果时，遇到排行榜（Leaderboard）刷新困难的问题。于是我们开始探索解决方案。

首先尝试直接使用页面链接进行数据爬取，很明显爬不到，因为 Kaggle 的数据是异步响应的。于是我打开 Leaderboard 页面的开发者工具，以著名的 Titanic 竞赛的排行榜为例，打开 Network 选项，查看 XHR 项，然后 ctrl+R 刷新页面，可以看到如下列表：

我用红框圈起来的这个就是我们要找的排行榜数据，点击它后可以看到它的 Request URL 如下：

然后把这个链接复制到浏览器打开，就可以看到一大段 JSON 形式的排行榜数据：

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

风控大鱼 CSDN认证博客专家 CSDN认证企业博客

码龄10年

49: 原创

4万+: 周排名

65万+: 总排名

27万+: 访问

: 等级

2555: 积分

165: 粉丝

130: 获赞

49: 评论

652: 收藏

私信

关注

分类专栏

大数据风控 1篇
量化风控 5篇
数据分析 1篇
爬虫 1篇
mysql
前端 1篇
FRM 1篇
数据科学 18篇
算法 11篇
机器学习 11篇
NLP 1篇
Hive 1篇
Python 4篇
数据可视化 4篇

最新评论

孤立森林（Isolation Forest）算法剖析
kuroneko11: 异常得分公式写错了。。
评分卡建模工具scorecardpy全解读
weixin_40800723: 请问算出来很多行的分数是空值是怎么回事
盘一盘2020年上半年的微博热搜词条（文末提供获取热搜词条方法）
☜Tom&Jerry☞: 哈喽，我也是新传的也是论文，您后面有了解获取到热搜数据吗
百度OCR接口使用详细教程
i是绘梨衣吖: 如果已经成功识别过，就可以确定代码和额度是没有问题的，可能是调用的时候接口没反应过来？可以多跑几次试试，然后debug一下
百度OCR接口使用详细教程
Lin硕: 额度领取了，成功识别后，但是后面又出现这个报错

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

风控大鱼 如果帮到了您，请我喝杯咖啡吧~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。