lxml库-腾讯招聘爬虫练习(1)
大家好!我是Jason。一名爬虫新人。
今天,我的爬虫练手小题目是——lxml.xpath爬取腾讯招聘的详细信息【第一期】。
lxml库的安装
我用的是python3,在cmd(命令指示符)中输入以下指令即可
pip install lxml
如果出现安装问题的话,论坛里面有很多朋友分享的安装过程讲解的很详细,大家可以去搜一搜。这里就不过多赘述了。
xpath的基础语法
动手之前,肯定要了解一下xpath的基础语法。请看下表
表达式 | 描述 |
---|---|
// | 从全局节点选择节点 |
@ | 选择某个节点的属性值 |
/ | 如果是在最前面,代表从根节点选取。否则选择某节点下的某个节点 |
说这些定义的东西有点空,在项目里跟大家再讲一讲。
——暂时写这么多,因为完成这个小题目只需要这几个(当然,第一次发博,我一个新人没总结好,抱歉了。)
分析url和页面
因为我是个爬虫新人,我目前对爬虫的理解是:首先第一步爬虫之前必须要做的是分析url和页面结构。
- 分析url
我们来看看腾讯招聘的url
↑这是腾讯社会招聘的第一页,红色箭头留意一下
↑这是腾讯社会招聘的第二页,红色箭头留意一下
两个图的红色箭头大家看到有什么规律来?
没错,如果你数过腾讯社会招聘第一页的招聘岗位数量,你就会发现,一页的内容刚好是10个。
- 分析页面结构
↑蓝色标号是我们接下来分析的步骤
- 我们爬取网页肯定要一页一页的按顺序爬取(这个好像有点废话了-.-)
- 爬取到一页后,接下来就要逐个点击页面内的10个岗位信息,因为具体的职位信息内容都在里面;
讲到这里,我们先将这几步的思路实现再继续下去。
代码
上代码前,还有些内容需要讲一讲——
headers是头部信息。爬取网页的话,添加了头部信息可以应付大多数网页的反爬技术。
那么headers内的‘User-Agent’和’Referer’,如何获取呢。看下