保姆级爬虫图文教学，手把手教你用Python爬取 “实习网”！

最新推荐文章于 2024-08-20 16:30:30 发布

小小程序员i549

最新推荐文章于 2024-08-20 16:30:30 发布

阅读量585

点赞数 2

文章标签：爬虫 ajax python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/i54996/article/details/120687101

版权

本文是针对Python爬虫初学者的教程，详细介绍了如何爬取“实习网”上的数据分析岗位信息。内容包括识别网页类型、定位数据、解析数据以及实现翻页操作。通过实例讲解了使用requests和xpath进行网页请求和数据提取，最终成功获取到包括公司名、岗位名、地址、学历、薪资、岗位需求、公司类型和公司规模等关键信息。

摘要由CSDN通过智能技术生成

① 你要爬取的网站是什么？

首先，我们应该清楚你要爬去的网站是什么？

由于这里我们想要爬取的是 “实习网” 中的数据，因此我们可以打开这个网站看看（如图所示）。

网站链接：https://www.shixi.com/search/index?

由于我们想要爬取 “数据分析” 岗位的数据。因此，直接在输入框输入数据分析即可。

这里是我们要的最终页面链接。👇👇待爬取链接：

https://www.shixi.com/search/index?key=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90

观察下图，可以清楚看到有哪些数据，下面还有页面信息。我们需要了解这些： 一个页面中共有多少条数据。这个很重要，后面可以帮你检查，是否爬取到了每个页面的所有信息。

图中显示的是 “一级页面” 中的信息，点击任意一个 “岗位名”，会自动跳转到 “二级页面”。以点击 “数据分析实习生” 为例，原来二级页面是这样的。

② 你要爬取页面上的哪些信息？

这里我们获取的不仅有一级页面中的信息，还有二级页面中的信息。在一级页面中（如图所示），我们获取到的有 “公司名”、“岗位名”、“公司地址”、“学历”、“薪资”。

在二级页面中（如图所示），我们获取到的有 “岗位需求”、“公司类型”、“公司规模”。

好了，这里一共有8个数据，是我们要获取的数据，这就是我们的 “爬虫目的”。

③ 页面是 “静态网页”，还是“动态网页”？

如果你请求某个网页，网页的信息是一次性给你的，那么它就是 “静态网页”。

如果你请求某个网页，网页中的信息，随着你鼠标往下滑动，而慢慢展现出来，那么它就是 “动态网页”，即 “Ajax技术”。

那么它们的区别就在于： 静态网页中的数据，是一次性给你。动态网页中的数据，是随着页面一步步加载出来，而逐步呈现的，也就是你用静态网页的爬虫技术，无法获取到里面所有的数据。

这里有一个很好 “检验” 是静态网页还是动态网页的方法，我给大家介绍一下。

点击 “鼠标右键”，点击 “查看网页源代码”。

最终效果如下（部分截图）：

最低0.47元/天解锁文章

小小程序员i549

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。