beautifulsoup网页爬虫解析_爬虫入门到精通-网页的解析（xpath）

最新推荐文章于 2024-08-12 17:13:59 发布

weixin_39869593

最新推荐文章于 2024-08-12 17:13:59 发布

阅读量112

点赞数

文章标签： beautifulsoup网页爬虫解析 js解析xml

本文章属于爬虫入门到精通系统教程第六讲

在爬虫入门到精通第五讲中，我们了解了如何用正则表达式去抓取我们想要的内容.这一章我们来学习如何更加简单的来获取我们想要的内容.

xpath的解释

XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。
XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。

XPath的基本使用

要使用xpath我们需要下载lxml，在爬虫入门到精通-环境的搭建这一章也说明怎么装，如果还没有安装的话，那就去下载安装吧

直接看代码实战吧。

from

相对路径与绝对路径

总结及注意事项

获取文本内容用 text()
获取注释用 comment()
获取其它任何属性用@xx，如
- @href
- @src
- @value

sample2 = """
<html>
  <body>
    <ul>
      <li>Quote 1</li>
      <li>Quote 2 with <a href="...">link</a></li>
      <li>Quote 3 with <a href="...">another link</a></li>
      <li><h2>Quote 4 title</h2> ...</li>
    </ul>
  </body>
</html>
"""
s2 = getxpath(sample2)