保姆级爬虫图文教学 ,手把手教你用Python爬取 “实习网”!

本文是针对Python爬虫初学者的教程,详细介绍了如何爬取“实习网”上的数据分析岗位信息。内容包括识别网页类型、定位数据、解析数据以及实现翻页操作。通过实例讲解了使用requests和xpath进行网页请求和数据提取,最终成功获取到包括公司名、岗位名、地址、学历、薪资、岗位需求、公司类型和公司规模等关键信息。
摘要由CSDN通过智能技术生成

① 你要爬取的网站是什么?

首先,我们应该清楚你要爬去的网站是什么?

由于这里我们想要爬取的是 “实习网” 中的数据,因此我们可以打开这个网站看看(如图所示)。

网站链接:https://www.shixi.com/search/index?

图片

由于我们想要爬取 “数据分析” 岗位的数据。因此,直接在输入框输入数据分析即可。

图片

这里是我们要的最终页面链接。👇👇待爬取链接:

https://www.shixi.com/search/index?key=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90

观察下图,可以清楚看到有哪些数据,下面还有页面信息。我们需要了解这些: 一个页面中共有多少条数据。这个很重要,后面可以帮你检查,是否爬取到了每个页面的所有信息。

图片

图中显示的是 “一级页面” 中的信息,点击任意一个 “岗位名”,会自动跳转到 “二级页面”。以点击 “数据分析实习生” 为例,原来二级页面是这样的。

图片

② 你要爬取页面上的哪些信息?

这里我们获取的不仅有一级页面中的信息,还有二级页面中的信息。在一级页面中(如图所示),我们获取到的有 “公司名”、“岗位名”、“公司地址”、“学历”、“薪资”。

图片

在二级页面中(如图所示),我们获取到的有 “岗位需求”“公司类型”“公司规模”

图片

好了,这里一共有8个数据,是我们要获取的数据,这就是我们的 “爬虫目的”

③ 页面是 “静态网页”,还是“动态网页”?

如果你请求某个网页,网页的信息是一次性给你的,那么它就是 “静态网页”

如果你请求某个网页,网页中的信息,随着你鼠标往下滑动,而慢慢展现出来,那么它就是 “动态网页”,即 “Ajax技术”

那么它们的区别就在于: 静态网页中的数据,是一次性给你。动态网页中的数据,是随着页面一步步加载出来,而逐步呈现的,也就是你用静态网页的爬虫技术,无法获取到里面所有的数据。

这里有一个很好 “检验” 是静态网页还是动态网页的方法,我给大家介绍一下 。

点击 “鼠标右键”,点击 “查看网页源代码”

图片

最终效果如下(部分截图):

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值