前言
暑假来临,好多小伙伴都在找暑期实习吧?前几天,朋友的弟弟,想在暑假期间找个实习工作锻炼自己,可是面对网络上几千条实习招聘信息,简直让人头大。随后朋友向我发出了“请求帮助”的信息,我了解了大致情况后,立马用爬虫爬取了实习网的的信息,将数据结果发了过去,问题分分钟解决。这请我吃一顿饭不过分吧?
这篇爬虫实战教程,不仅适合新手练习爬虫,也适合需要找实习信息的朋友!
希望在看了这篇文章后,能够清晰的知道整个爬虫流程,并且能够独立自主的完成,其次,能够通过自己的爬虫实战,获取自己想要的信息。
好了,话不多说,咱们就开始吧!
内容主要分为两个部分:
1、页面分析
2、爬虫步骤详解
一、页面分析
1、分析实习网
首先,我们应该要知道自己的爬虫目标是个什么东西吧?俗话说,知己知彼,百战不殆。我们已经知道自己要爬取的页面是“实习网”,所以,咱们首先得去实习网看看,都有些什么数据。
实习网址: https://www.shixi.com/search/index
页面如下:
例如我们要找的岗位是“品牌运营”岗位的数据。因此直接在网页的搜索框输入品牌运营就行了。你会发现url发生了变化!
注意:我们要爬取的页面就是这页:https://www.shixi.com/search/index?key=品牌运营
在我们的爬取页面中,我们需要观察有哪些数据,并且一个页面中有几条数据。这个非常重要,关系到后面的代码编写,以及可以帮你检查,是否爬取到了页面的所有信息。
此时,我们要注意的是,我们所在的页面是“一级页面”,在浏览过程中,我们 点击随意一个岗位进入后呈现的是“二级页面”,此时你也会发现url又发生了变化。