大家好,这里是为代码封神的封神榜(有点吹牛皮了,哈哈)。还是新人初来乍到,希望大家多多指教。
本系列呢,是为大家带来的是一些爬虫小项目,希望大家能够喜欢,多多支持。
1 爬取职位信息
确定爬取的思路
该项目里爬取的都是江苏省高校,并且不止一个。爬取数据的入口是江苏省的某就业平台(http://www.91job.org.cn/default/schoollist)
该页面收录了江苏省各市 160 多所高校的就业网站。从这里点进去每个站点里的内容,跟各高校官网的就业信息站点的内容是一样的,以南京师范大学为例:
可以看到,除了url不同外,内容是一样的。这就带来了一个好处是,我们想爬取多个高校的就业信息,不用去每个高校官网找内容,直接到这个网站找就可以了,并且url格式也是固定的 “高校英文.91job.org.cn”。
这还不是最牛的,最牛的是每个高校的职位列