① 你要爬取的网站是什么?
首先,我们应该清楚你要爬去的网站是什么?
由于这里我们想要爬取的是 “实习网” 中的数据,因此我们可以打开这个网站看看(如图所示)。
网站链接:https://www.shixi.com/search/index?
由于我们想要爬取 “数据分析” 岗位的数据。因此,直接在输入框输入数据分析即可。
这里是我们要的最终页面链接。👇👇待爬取链接:
https://www.shixi.com/search/index?key=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90
观察下图,可以清楚看到有哪些数据,下面还有页面信息。我们需要了解这些: 一个页面中共有多少条数据。这个很重要,后面可以帮你检查,是否爬取到了每个页面的所有信息。
图中显示的是 “一级页面” 中的信息,点击任意一个 “岗位名”,会自动跳转到 “二级页面”。以点击 “数据分析实习生” 为例,原来二级页面是这样的。
② 你要爬取页面上的哪些信息?
这里我们获取的不仅有一级页面中的信息,还有二级页面中的信息。在一级页面中(如图所示),我们获取到的有 “公司名”、“岗位名”、“公司地址”、“学历”、“薪资”。
在二级页面中(如图所示),我们获取到的有 “岗位需求”、“公司类型”、“公司规模”。
好了,这里一共有8个数据,是我们要获取的数据,这就是我们的 “爬虫目的”。
③ 页面是 “静态网页”,还是“动态网页”?
如果你请求某个网页,网页的信息是一次性给你的,那么它就是 “静态网页”。
如果你请求某个网页,网页中的信息,随着你鼠标往下滑动,而慢慢展现出来,那么它就是 “动态网页”,即 “Ajax技术”。
那么它们的区别就在于: 静态网页中的数据,是一次性给你。动态网页中的数据,是随着页面一步步加载出来,而逐步呈现的,也就是你用静态网页的爬虫技术,无法获取到里面所有的数据。
这里有一个很好 “检验” 是静态网页还是动态网页的方法,我给大家介绍一下 。
点击 “鼠标右键”,点击 “查看网页源代码”。
最终效果如下(部分截图):