学习爬虫时看的是几年前的教程,那个教程是举的一个例子就是爬取拉勾网的职位信息,但是由于这几年的反爬技术提高,拉勾网已经不能按照以前那么简单的爬了,研究了一下,终于可以爬到拉钩网的数据了。
首先我们打开拉勾网的网页 https://www.lagou.com/ 然后搜索python
打开chrome的抓包工具 f5刷新下网页,可以看到第一个就是返回的html 但是里面却没有职位的信息。
原来拉勾网的职位信息是通过ajax动态加载的 我们在抓包工具里找到ajax的包,根据名字我们可以很容易的找到那个包