lxml库-腾讯招聘信息爬虫练习(1)

最新推荐文章于 2024-04-30 14:50:33 发布

Csdn_JasonD

最新推荐文章于 2024-04-30 14:50:33 发布

阅读量420

点赞数

分类专栏： Python 文章标签：爬虫 Python lxml库

本文链接：https://blog.csdn.net/Csdn_JasonD/article/details/88899858

版权

本文是Jason作为爬虫新人的实践分享，介绍如何利用lxml库和xpath基础语法爬取腾讯招聘的岗位信息。首先讲解lxml库的安装，然后阐述xpath的基本概念。接着分析腾讯招聘的url规律和页面结构，包括每个职位信息所在的元素位置。文章提供了部分代码，并对headers的设置进行了说明，尤其是如何获取User-Agent和Referer。最后，文章预告了后续的内容，虽然未完成，但已能打印出职位的URL。

摘要由CSDN通过智能技术生成

lxml库-腾讯招聘爬虫练习(1)

大家好！我是Jason。一名爬虫新人。
今天，我的爬虫练手小题目是——lxml.xpath爬取腾讯招聘的详细信息【第一期】。

lxml库的安装

我用的是python3，在cmd（命令指示符）中输入以下指令即可

pip install lxml

如果出现安装问题的话，论坛里面有很多朋友分享的安装过程讲解的很详细，大家可以去搜一搜。这里就不过多赘述了。

xpath的基础语法

动手之前，肯定要了解一下xpath的基础语法。请看下表

表达式	描述
//	从全局节点选择节点
@	选择某个节点的属性值
/	如果是在最前面，代表从根节点选取。否则选择某节点下的某个节点