爬虫的步骤解析内容xpath介绍_爬虫第三天——初识Xpath

解析神器Xpath:

1. 什么是XpathXPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。

XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。

可以阅读该文档了解更多关于Xpath的知识。

2. Xpath解析网页的流程首先通过Requests库获取网页数据

通过网页解析,得到想要的数据或者新的链接

网页解析可以通过Xpath或者其它解析工具进行,Xpath在是一个非常好用的网页解析工具

3. 常用的网页解析正则表达式使用比较困难,学习成本较高

BeautifulSoup性能较慢,相对于Xpath较难,在某些特定场景下有用

Xpath使用简单,速度快(Xpath是lxml里面的一种),是抓取数据最好的选择

Xpath的使用:

1. 使用Xpath解析网页数据的步骤从lxml导入etree

解析数据,返回xml结构

使用.xpath()寻找和定位数据

from lxml import etree

html ='''#省略'''#html数据,使用requests获取

s = etree.HTML(html)#解析html数据

print(s.xpath())#使用.xpath()

2. 获取Xpath的方法第一种方法:从浏览器直接复制

首先在浏览器上定位到需要爬取的数据

右键,点击“检查”,在“Elements”下找到定位到所需数据

右键——Copy——Copy Xpath,即可完成Xpath的复制

第二种方法:手写Xpath

获取文本内容用 text()

获取注释用 comment()

获取其它任何属性用@xx,如:

href

src

value

想要获取某个标签下所有的文本(包括子标签下的文本),使用string

如”< p>123< a>来获取我啊< /a>< /p>”,这边如果想要得到的文本为”123来获取我啊”,则需要使用string

starts-with 匹配字符串前面相等

contains 匹配任何位置相等

附录

Xpath教程阅读Xpath教程,掌握Xpath的基本知识

Xpath的基本使用

正则表达式阅读Python正则表达式,了解正则表达式及其基本的语法

阅读爬虫入门到精通-网页的解析(正则),学习使用正则表达式匹配网页数据

BeautifulSoup阅读Beautiful Soup 中文教程,了解使用BeautifulSoup解析网页的方法

阅读Beautiful Soup 4.2.0 文档这篇BeautifulSoup的官方文档,了解其更加全面的用法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值