如何用最简方法,爬取网站数据?

(注:本文为小报童精选文章。已订阅小报童或加入知识星球「玉树芝兰」用户请勿重复付费

小巧、简单、高效、实用。

7e74639eb3e0c9f3adb7ea88ff03e4ae.jpeg

许多学科的研究工作范式早已是数据驱动。在过去的几年时间里,我给你介绍过不少获取数据的方法。开放数据获取和 API 数据读取更为简单一些,相对而言爬虫就有些复杂。所以我详细介绍使用编程从头做爬虫的教程并不多,而更希望给你介绍一些更为简便的方式,例如这篇

36c6b1b5f51693c574b9ef6c9b231ba6.jpeg

自从有了大语言模型,我们都看到了一个更加智能时代的来临。我也给你介绍过利用 Code Interpreter 等方式替你编程采集数据的方法,这样你就不用自己手动写代码来抓取数据了。

6794187859b572a0326d890f6fea1f08.jpeg

最近给你介绍的样例是一个定制化的 GPT,是有人专门做好放在 GPTS Store 里面供大家使用的。在这篇文章里,我给你演示了用它来采集我们系的教师介绍网页

90eeb2acf8f1e697fecab72ee74f4165.jpeg

从这个样例中你不难看出,AI Agent 具有很大的潜力,可以为普通用户赋能,帮助你完成从前无法做到的数据采集任务。

c99f8c4fefc867334e9b6dde62f8a64c.jpeg

但是它的局限也是非常明显的。例如,我当时希望它采集翟羽佳老师的相关信息,但实际操作中它只抓取了教育背景等基本信息介绍,对于其他分栏下面的信息就没有能够采集出来。这不得不说是一个遗憾,限制了 GPTs 这种数据爬取方式的应用场景。

dc35667f42ac7a56b55256f9e12e5ede.jpeg

好在最近我找到了一种更加简便的爬取网页内容的方法,其简便程度真的让我感到有些惊讶。

本文我就把这种方法介绍给你,咱们还是先从爬取翟羽佳老师个人信息这个样例开始吧。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值