lxml库-腾讯招聘信息爬虫练习(1)

本文是Jason作为爬虫新人的实践分享,介绍如何利用lxml库和xpath基础语法爬取腾讯招聘的岗位信息。首先讲解lxml库的安装,然后阐述xpath的基本概念。接着分析腾讯招聘的url规律和页面结构,包括每个职位信息所在的元素位置。文章提供了部分代码,并对headers的设置进行了说明,尤其是如何获取User-Agent和Referer。最后,文章预告了后续的内容,虽然未完成,但已能打印出职位的URL。
摘要由CSDN通过智能技术生成

lxml库-腾讯招聘爬虫练习(1)

大家好!我是Jason。一名爬虫新人。
今天,我的爬虫练手小题目是——lxml.xpath爬取腾讯招聘的详细信息【第一期】。

lxml库的安装

我用的是python3,在cmd(命令指示符)中输入以下指令即可

pip install lxml

如果出现安装问题的话,论坛里面有很多朋友分享的安装过程讲解的很详细,大家可以去搜一搜。这里就不过多赘述了。

xpath的基础语法

动手之前,肯定要了解一下xpath的基础语法。请看下表

表达式 描述
// 从全局节点选择节点
@ 选择某个节点的属性值
/ 如果是在最前面,代表从根节点选取。否则选择某节点下的某个节点

说这些定义的东西有点空,在项目里跟大家再讲一讲。
——暂时写这么多,因为完成这个小题目只需要这几个(当然,第一次发博,我一个新人没总结好,抱歉了。)

分析url和页面

因为我是个爬虫新人,我目前对爬虫的理解是:首先第一步爬虫之前必须要做的是分析url和页面结构。

  1. 分析url

我们来看看腾讯招聘的url
这是腾讯社会招聘的第一页url,红色箭头留意一下
↑这是腾讯社会招聘的第一页,红色箭头留意一下

这是腾讯社会招聘的第二页url,红色箭头留意一下
↑这是腾讯社会招聘的第二页,红色箭头留意一下

两个图的红色箭头大家看到有什么规律来?
没错,如果你数过腾讯社会招聘第一页的招聘岗位数量,你就会发现,一页的内容刚好是10个。

  1. 分析页面结构

蓝色标号是我们接下来分析的步骤
↑蓝色标号是我们接下来分析的步骤

  1. 我们爬取网页肯定要一页一页的按顺序爬取(这个好像有点废话了-.-)
  2. 爬取到一页后,接下来就要逐个点击页面内的10个岗位信息,因为具体的职位信息内容都在里面;

讲到这里,我们先将这几步的思路实现再继续下去。

代码

上代码前,还有些内容需要讲一讲——

headers是头部信息。爬取网页的话,添加了头部信息可以应付大多数网页的反爬技术。
那么headers内的‘User-Agent’和’Referer’,如何获取呢。看下

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值