如何用最简方法，爬取网站数据？

nkwshuyi

于 2024-05-29 18:20:17 发布

阅读量261

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nkwshuyi/article/details/139318570

版权

（注：本文为小报童精选文章。已订阅小报童或加入知识星球「玉树芝兰」用户请勿重复付费）

小巧、简单、高效、实用。

许多学科的研究工作范式早已是数据驱动。在过去的几年时间里，我给你介绍过不少获取数据的方法。开放数据获取和 API 数据读取更为简单一些，相对而言爬虫就有些复杂。所以我详细介绍使用编程从头做爬虫的教程并不多，而更希望给你介绍一些更为简便的方式，例如这篇。

自从有了大语言模型，我们都看到了一个更加智能时代的来临。我也给你介绍过利用 Code Interpreter 等方式替你编程采集数据的方法，这样你就不用自己手动写代码来抓取数据了。

最近给你介绍的样例是一个定制化的 GPT，是有人专门做好放在 GPTS Store 里面供大家使用的。在这篇文章里，我给你演示了用它来采集我们系的教师介绍网页。

从这个样例中你不难看出，AI Agent 具有很大的潜力，可以为普通用户赋能，帮助你完成从前无法做到的数据采集任务。

但是它的局限也是非常明显的。例如，我当时希望它采集翟羽佳老师的相关信息，但实际操作中它只抓取了教育背景等基本信息介绍，对于其他分栏下面的信息就没有能够采集出来。这不得不说是一个遗憾，限制了 GPTs 这种数据爬取方式的应用场景。

好在最近我找到了一种更加简便的爬取网页内容的方法，其简便程度真的让我感到有些惊讶。

本文我就把这种方法介绍给你，咱们还是先从爬取翟羽佳老师个人信息这个样例开始吧。

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
如何用最简方法，爬取网站数据？

（注：本文为小报童精选文章。已订阅小报童或加入知识星球「玉树芝兰」用户请勿重复付费）小巧、简单、高效、实用。许多学科的研究工作范式早已是数据驱动。在过去的几年时间里，我给你介绍过不少获取数据的方法。开放数据获取和 API 数据读取更为简单一些，相对而言爬虫就有些复杂。所以我详细介绍使用编程从头做爬虫的教程并不多，而更希望给你介绍一些更为简便的方式，例如这篇。自从有了大语言模型，我们都看到了一个更加...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。