我的爬虫背景:基本小白,只知道网页的代码大概长啥样,但是css之类的完全不懂。在这样的背景下,我使用GPT帮我完成了爬虫程序。所以本文比较 适合爬虫小白。大神请绕道 ~
下面来看操作步骤。以 GitHub的 Trending页面(https://github.com/trending)为例,我们的目标是爬取出Trending列表中的项目名称、url、简介、start数等信息。
1. 详细操作步骤
(1)打开网页,F12快捷键打开网页调试界面,可以看到网页的元素
(2)如上图,在调试窗口,选“元素”选项卡,可以看到页面元素
(3)点击调试窗口左上角带小箭头的那个图标,点击后在左侧页面中鼠标停留的地方会捕捉当前位置的元素。
(4)如图