python爬虫-xpath爬贴吧图片---------------（1）

最新推荐文章于 2022-02-08 23:04:05 发布

大灰狼学编程

最新推荐文章于 2022-02-08 23:04:05 发布

阅读量1.2k

点赞数 1

分类专栏： Python学习文章标签： python 爬虫 xpath

本文链接：https://blog.csdn.net/a_hui_tai_lang/article/details/82588295

版权

本文介绍了如何使用XPath在Python爬虫中解析HTML，对比了XML和HTML的区别，并通过XPath选取节点、谓语、通配符等进行操作。还提到了lxml库，它是Python的高性能HTML/XML解析器，可以方便地配合XPath语法提取所需数据。最后预告下篇将实战应用XPath爬取贴吧图片。

摘要由CSDN通过智能技术生成

python爬虫-xpath爬贴吧图片---------------（1）
python爬虫-xpath爬贴吧图片---------------（2）
我正则用的不好，处理HTML文档感觉头很大。有了xpath后感觉头不疼了，腰不酸了，所以我们就来学学xpath在爬虫中的应用。我们可以先将 HTML文件转换成 XML文档，然后用 XPath 查找 HTML 节点或元素。

##什么是XML

XML 指可扩展标记语言（EXtensible Markup Language）
XML 是一种标记语言，很类似 HTML
XML 的设计宗旨是传输数据，而非显示数据
XML 的标签需要我们自行定义。
XML 被设计为具有自我描述性。
XML 是 W3C 的推荐标准
W3School官方文档：http://www.w3school.com.cn/xml/index.asp

<?xml version="1.0" encoding="utf-8"?>

<bookstore> 

  <book category="cooking"> 
    <title lang="en">Everyday Italian</title>  
    <author>Giada De Laurentiis</author>  
    <year>2005</year>  
    <price>30.00</price> 
  </book>  

  <book category="children"> 
    <title lang="en">Harry Potter</title>  
    <author>J K. Rowling</author>  
    <year>2005</year>  
    <price>29.99</price> 
  </book>  

  <book category="web"> 
    <title lang="en">XQuery Kick Start</title>  
    <author>James McGovern</author>  
    <author>Per Bothner</author>  
    <author>Kurt Cagle</author>  
    <author>James Linn</author>  
    <author>Vaidyanathan Nagarajan</author>  
    <year>2003</year>  
    <price>49.99</price> 
  </book> 

  <book category="web" cover="paperback"> 
    <title lang="en">Learning XML</title>  
    <author>Erik T. Ray</author>  
    <year>2003</year>  
    <pr