统计智联招聘上,各个编程语言的在招岗位数量。
思路:写爬虫 的第一步永远是先分析网页
1、用谷歌浏览器打开智联招聘官网。
2、右键“检查”->"Network"对响应数据抓包。
3、我们发现,岗位数据是用xhr加载的,json格式的数据。这样我们就可以直接向api发起请求获取数据包,因此可以跳过解析html标签这一步。
4、分析接口的请求头、请求参数、响应。请求参数包括一些查询参数、分页参数、位置信息、用户信息等。其中比较重要的几个查询参数,cityId:城市;kw:搜索关键字。返回的json数据包里可以找到我们需要的数据。numFound:总数。numTotal:总数,但是最多只能查看到1000条招聘数据,尽管总数是7579,results:招聘详情(薪资/工作地点/公司名称/学历要求/公司类型......)。这里我们只获取深圳的招聘数据,就取numFound进行对比。