本文作者:王玉婷 中南财经政法大学金融学院
文字编辑:王子一
技术总编:张馨月
爬虫俱乐部云端课程
爬虫 俱乐部于2020年暑期在线上举办的Stata与Python编程技术训练营和Stata数据分析法律与制度专题训练营在不久前已经圆满结束啦~应广大学员需求,我们的课程现已在腾讯课堂全面上线,且 继续提供答疑服务 。现在关注公众号并在朋友圈转发推文《 来腾讯课堂学Stata和Python啦 !》或《8月Stata数据分析法律与制度专场来啦!》,即可获得 600元课程优惠券 ,集赞50个再领 200元课程优惠券 !(截图发至本公众号后台领取)原价2400元的课程,现在只要 1600元 ! 小伙伴、大伙伴们,大家好~今天要给大家介绍的是Python 爬虫必杀技:XPath。1. 简介
一提到网络爬虫,就不得不提到Xpath Helper,我们常常用它来对所要提取的文本内容进行定位,详情可参考推文《Xpath Helper助Xpath爬虫一臂之力》。除了这一利器外,了解Xpath定位的原理及其基本用法可以大幅提高我们的爬虫技巧。
XPath即XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。现在问题来了,爬虫是从HTML网页上抓取信息,你给我介绍XML干嘛?实际上,XML是一种与HTML很相似的可扩展标记语言,均为具备结构和层次的文档,我们所关注的文本内容都由各种标签“包围”着。不同的是,XML文档的结构更简洁,比HTML对初次学习爬虫的新手更友好。因此,我们学习Python爬虫,可以从使用XPath对XML进行定位开始~
2. 安装
在Windows环境下,同时按下Home
+
R
,输入
cmd
:
pip install lxml
若出现下图所示界面,则表示安装成功:
3. XPath的节点
XPath的主要节点有4种,分别是:文档节点,元素节点,属性节点和文本节点。比如下面这个XML文档:Harry PotterJ K. Rowling200529.99
其中
bookstore
为文档节点,是
book
的父节点(parent)。
category
为属性节点,是
book
节点的属性。
title
、
author
、
year
和
price
均为元素节点,互为同胞(sibling),是
book
的子节点(child)。
我们所关注的文本信息,比如
Harry Potter
、
J.K. Rowling
等则为文本节点。
4. XPath的路径
当我们想要描述某个地方时,我们常常用不同层次的节点名称串联起来,比如:中南财经政法大学位于“中国 湖北省 武汉市”。类似地,我们想要定位XML文档中某个文本时,我们会说:“书籍名称Harry Potter
位于book
节点下的子节点title
的文本节点”。
当我们在程序中定位时,我们需要将这种表述转换为路径表达式,最常用的路径表达式有:
表达式 | 含义 |
---|---|
/ | 从根节点选取 |
// | 从任意节点选取 |
. | 选取当前节点 |
.. | 选取当前节点的父节点 |
@ | 选取属性 |
5. XPath实例
准备工作完成,现在就让咱们实际操作一下吧~ 我们定义一个XML格式的字符串变量:text = '''Harry PotterJ K. Rowling200529.99'''
首先,我们导入lxml库,并将该字符串转换为Element对象,即告诉程序该字符串为XML格式或类XML格式。
from lxml import etreetree = etree.fromstring(text)
(1)定位元素
转换为Element对象后,即可使用XPath路径表达式对我们关注的文本内容进行定位。从根节点定位bookstore
元素下的book
元素,并以该元素为当前节点定位title
元素,其路径表达式写作:
book = tree.xpath("/bookstore/book")title = book[0].xpath("./title")print(type(book)) # 打印xpath返回的数据类型print(title[0].tag) # 打印第一个title节点的tag
运行结果如下图所示:
title
为当前节点,从
title
的父节点定位
year
元素,路径表达式写作:
year = title[0].xpath("../year")print(year[0].tag)
从任意节点选取
price
元素,其路径表达式为:
price = tree.xpath("//price")print(price[0].tag)
从任意位置定位所有元素,其路径表达式为:
all_elements = tree.xpath("//*")for element in all_elements:print(element.tag)
运行结果如下:
以book
为当前节点,定位其属性Fantasy Novels
:
category = book[0].xpath("./@category")print(category)
运行结果如下:
![006d01c7-e819-eb11-8da9-e4434bdf6706.png](http://p05.5ceimg.com/content/006d01c7-e819-eb11-8da9-e4434bdf6706.png)
book
元素的属性:
category = tree.xpath("//book/@category")
若定义的字符串text中含有不止一个属性时,也可以使用通配符来定位所有属性:
category_list = tree.xpath("//@*")
(3)定位文本
从任意位置定位title
元素的文本节点:
title_text = tree.xpath("//title/text()")print(title_text)
运行结果如下图所示:
![046d01c7-e819-eb11-8da9-e4434bdf6706.png](http://p01.5ceimg.com/content/046d01c7-e819-eb11-8da9-e4434bdf6706.png)
all_text = tree.xpath("//text()")print(all_text)
运行结果如下图所示:
book_text = tree.xpath("//book/*/text()")print(book_text)
运行结果如下图所示:
事实上,XPath结合运算符能够对更复杂的XML文本进行精确地定位,我们在之前的推文《寻找B站的最爱--8月B站全站榜爬虫》、《Python带你看文献——xpath抓取知网文献》等都有所介绍。由于篇幅有限,咱们之后再聊~
![0d6d01c7-e819-eb11-8da9-e4434bdf6706.png](http://p04.5ceimg.com/content/0d6d01c7-e819-eb11-8da9-e4434bdf6706.png)
快速计算两地距离——geodist命令介绍
Seminar | CFO:努力影响财务信息环境吗?
Seminar | 企业层面成本加成的测算朴素贝叶斯算法——以20Newsgroups数据集为例
【爬虫实战】利用scrapy框架爬取豆瓣图书信息
《我和我的家乡》影评高频词原来是这些!
一位大学党委书记的自我结束——风波里的学者本真
Seminar | JPX400指数的公司治理效应 Seminar | 企业社会责任披露如何影响企业绩效? 【爬虫实战】恒大的底气?--恒大楼盘数量爬取 Python遇上Stata--IPyStata介绍 变量类型转换之encode&decode命令 Seminar | 主动型基金:我还行吗?Seminar | CEO的哪些特征和能力更重要?
用词云图看Sustainability期刊热门题目
用Python把新婚祝福打满公屏!震惊!知名数据分析软件竟被某度翻译“亲切称呼”为“斯塔塔”
关于我们微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。
此外,欢迎大家踊跃投稿,介绍一些关于stata和python的数据处理和分析技巧。 投稿邮箱:statatraining@163.com 投稿要求:1)必须原创,禁止抄袭;2)必须准确,详细,有例子,有截图;注意事项:1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。2)邮件请注明投稿,邮件名称为“投稿+推文名称”。3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。![106d01c7-e819-eb11-8da9-e4434bdf6706.png](http://p02.5ceimg.com/content/106d01c7-e819-eb11-8da9-e4434bdf6706.png)
![156d01c7-e819-eb11-8da9-e4434bdf6706.jpeg](http://p01.5ceimg.com/content/156d01c7-e819-eb11-8da9-e4434bdf6706.jpeg)
![106d01c7-e819-eb11-8da9-e4434bdf6706.png](http://p02.5ceimg.com/content/106d01c7-e819-eb11-8da9-e4434bdf6706.png)