python爬虫之xpath入门

一、前言

XPATH(XML Path Language),它可以在 XML 和 HTML文档中对元素和属性进行查找和遍历。

  1. XPath 使用路径表达式来选取 XML 文档中的节点或节点集。
  2. 这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常类似。
  3. 使用chrome 插件选择标签时候,选中时,选中的标签会添加属性class=“xh-highlight”

参考文档:

基础语法:https://www.w3school.com.cn/xpath/index.asp
python使用 xpath:https://blog.csdn.net/q1246192888/article/details/123649072

二、xpath语法-基础语法

常用路径表达式

表达式说明
nodename选取此节点的所有子节点
/绝对路径,如果写在最前面则从根节点选取,否则是当前节点下的子节点
//相对路径,和绝对路径/不同的是整个文本下的直接或间接节点,而不考虑他们的位置。
.当前节点,类似于 linux 的当前目录
..当前节点的父节点,类似与 linux 的上一级目录
text()一个开闭标签之间的文本内容
@某个节点标签内的属性

举例说明

  • footer: 获取 footer 节点下的所有子节点
  • /title: 根节点下所有title 标签
  • //div:根节点下所有的div 标签
  • ./div[@class=test-class].text():当前节点下,属性class=test-class的所有div 的文本内容
  • ./div[@id=test-id]…//a.text(): 当前节点下,属性id=test-id的div的 所有上一级a 标签的文本内容

三、xpath语法-谓语

可以根据标签的属性值、下标等来获取特定的节点

谓语用来查找某个特定的节点或者包含某个指定的值的节点。
谓语被嵌在方括号中。

表达式举例

路径表达式结果
//title[@lang=“eng”]选择lang 属性值为 eng 的所有 title元素
//bookstore/book[1]选取属于 bookstore 子元素的第一个book 元素
//bookstore/book[last()]选取属于 bookstore子元素的最后一个 book 元素
//bookstore/book[last()-1]选取属于 bookstore 子元素的倒数第二个 book 元素
//bookstore/book[position()>1]选择所有 bookstore 下面的 book元素,从第二个开始选择
//book/title[text()=‘Harry Potter’]选择所有 book下的title元素,仅仅选择文本为 Harry Potter 的 title 元素
//div[@id=“test-div-1”]/span选择 id="test-div-1"下的 div下的所有 span 节点
/bookstore/book[price>35]/title选取 bookstore元素的所有 title节点,且其中的 price 子节点的值必须大于35
//div[@id=“test-container”]/span/@class找到 id="test-container"的div下 的 span节点的所有class的值
//span[i>2000]找到所有 span 节点,且其中的 i子节点的text()大于2000
//div[span[2]>=9.4]找到所有的 div 节点,且子节点中第二个 span 的text()内容大于9.4
//div[contains(@id,“test_div_”)]找到所有 div节点,且id包含了"test_div_"
//div[@class=“pagination”]//span[contains(text(),“下一页”)]先找到class="pagination"的 div,再找其子节点span,且文本内容包下一页

注意

  • 只要涉及到条件的加[],只要涉及到加属性值加@
  • 凡事 /text(),/@ 加在最后,是取值,取的是前面 标签的属性值
  • text(),@ 加在[]中,则是修饰符,表示使用标签的属性名或属性值 来筛选节点,
  • xpath 的索引下标是从1开始
  • 常用函数 text()取标签之间的文本,contains(属性,“内容”)表示某节点属性包含的内容

四、xpath语法-通配符

xpath 的通配符用来选取未知的 html/xml 元素

语法

通配符说明
*匹配任何的元素节点
@*匹配任何属性节点
node()匹配任何类型的节点

实例

路径表达式说明
/bookstore/*选取bookstore节点下的所有子节点
//*选取文档中的所有文档
//tittle[@*]选取所有带有属性的 title元素

五、选取多个路径

通过 xpath 的运算符|,选取多个路径,表示多个路径的并集

实例

路径表达式说明
//book/title | //book/price选取 book元素下的所有title和 price元素
//title | //price选取文档中的所有title和 price元素
/bookstore/book/title | //price选取属于 bookstore节点下 book 节点下的所有 title节点 以及文档中所有的 price 元素

六、Xpath Helper

Xpath Helper是一个免费的 chrom插件,是用来方便调试 xpath 用的,可以提高效率,由日本的一名程序员开发,只是目前只有外网可以访问。
我是使用了CMYNetwork加速器 VPN通道来进行安装。当然往上免费的也可以下载到。

扩展链接地址
注:VPN节点最好选择美国的节点

安装

在这里插入图片描述

使用说明

  • 打开一个任意网站,百度贴吧为例,https://tieba.baidu.com/p/8940673717
  • 可以在浏览器的右上角点击图标按钮,或按下 Ctrl+Shift+X快捷键(mac os 上是 Command+Shift+X)就可以开启 xpath helper,如下图
    左侧区域显示的是 xpath 语法来筛选,右侧区域就来显示效果。
    在这里插入图片描述
  • 查找某一个或某一块节点元素的 xpath,可以按 Shift键,将鼠标移动到指定节点元素的位置就可以看到xpath了
    在这里插入图片描述
  • 也可以在右键—>检查,选择具体的节点,然后右键—>Copy—>Copy Xpath
    在这里插入图片描述
    将 copy的xpath复制到 xpath helper的查询框,就可以看结果是否正确了
    在这里插入图片描述

例子:

  • 以查看人工智能贴吧的某一条内容为例子:
<!--查看 class="d_post_content_main"节点下的 id="post_content_149887537934"节点的内容-->
//div[@class="d_post_content_main"]//div[@id="post_content_149887537934"]

在这里插入图片描述

  • 查看分页
    如下是来查找分页的 下一页的href的链接值
//div[@id="thread_theme_5"]//ul[@class="l_posts_num"]//a[text()="下一页"]/@href

在这里插入图片描述

七、python中 xpath 的使用

安装xpath 的依赖包

pip install lxml

xml节点的获取

源码上 xml 解析的源码,https://gitee.com/allen-huang/python/blob/master/crawler/do-parse/test_xml_xpath.py

  • xml 文件的内容
<?xml version="1.0" encoding="UTF-8" ?>
<root>
    <head>
        <title>xml的 xpath 测试</title>
    </head>
    <bookstore>
        <book>
            <title lang="zh">图解 HTTP 协议</title>
            <price>59</price>
        </book>
        <book>
            <title lang="zh">网络爬虫开发实战</title>
            <price>139</price>
        </book>
    </bookstore>
</root>
  • xml的解析文本内容
def test_xml(self):
    tree = etree.parse('book.xml')
    # 获取 head 节点下的 title 节点的文本内容
    print(tree.xpath('head/title/text()'))

    # 获取 bookstore 节点下的 book 的内容
    for element in tree.xpath('//bookstore'):
        # 当前节点下的 book 节点的 title 节点的文本内容
        print(element.xpath('book/title/text()'))
        # 当前节点下的 book 节点的 price 节点的文本内容
        print(element.xpath('book/price/text()'))
    pass

在这里插入图片描述

  • xml的属性筛选
def test_xml_fromstring(self):
    """
    加载 xml 字符串,筛选属性的所有 title 的节点内容
    @return:
    """
    xml_str = """
    <root>
        <head>
            <title>xml的 xpath 测试</title>
        </head>
        <bookstore>
            <book>
                <title lang="zh">图解 HTTP 协议</title>
                <price>59</price>
            </book>
            <book>
                <title lang="zh">网络爬虫开发实战</title>
                <price>139</price>
            </book>
        </bookstore>
    </root>
    """
    tree = etree.fromstring(xml_str)
    title_nodes = tree.xpath("//title[@lang='zh']")
    for node in title_nodes:
        print(node.text)
    
    price_nodes = tree.xpath("//price")
    for node in price_nodes:
        print(node.text)
    pass

在这里插入图片描述

xpath解析 html内容

解析 html的内容的源码地址:https://gitee.com/allen-huang/python/blob/master/crawler/do-parse/test_html_xpath.py

1. 以读取 html文件的方式进行解析

文件也一同放在码云上,book.html
读取一个html文档,需要是标准的html,对于标签不全的html,就会报错,而HTML()会修复html的标签

  • html文件的结构
<!DOCTYPE html>
<html lang="zh-CN">
<head>
    <meta http-equiv="content-type" content="text/html; charset=utf-8"/>
    <title>豆瓣阅读</title>
</head>
<body>
<div class="bookstore-container">
    <ul class="bookstore-list">
        <li id="book-1" class="bookstore-item">
            <a href="https://read.douban.com/reader/ebook/52497819/" class="bookstore-cover">
                <div class="bookstore-info">
                    <div class="title">Java高并发编程:多线程与架构设计</div>
                    <div class="author">王文君</div>
                    <div class="price">59.00</div>
                    <div class="score">8.7</div>
                    <div class="publisher">机械工业出版社</div>
                </div>
            </a>
        </li>
        <li id="book-2" class="bookstore-item">
            <a href="https://read.douban.com/reader/ebook/153139284/" class="bookstore-cover">
                <div class="bookstore-info">
                    <div class="title">Java高并发编程详情</div>
                    <div class="author">王文君</div>
                    <div class="price">55.00</div>
                    <div class="score">8.2</div>
                    <div class="publisher">机械工业出版社</div>
                </div>
            </a>
        </li>
        <li id="book-3" class="bookstore-item">
            <a href="https://read.douban.com/reader/ebook/128052544/" class="bookstore-cover">
                <div class="bookstore-info">
                    <div class="title">深入理解Java虚拟机:JVM高级特性与最佳实践(第3版)</div>
                    <div class="author">周志明</div>
                    <div class="price">99</div>
                    <div class="score">9.4</div>
                    <div class="publisher">机械工业出版社</div>
                </div>
            </a>
        </li>
    </ul>
</div>
</body>
</html>
  • 单元测试中的前置操作,设置共用对象
def setUp(self):
    """
    前置操作
    @todo 1.将一个html文件转化成html对象,etree.parse()默认只能读取一个标准的html文档,对于标签不全的html,需要加上etree.HTMLParser(),否则就会报错,
        而使用HTML()会修复html的标签
    @todo 2.将html字符串转化成html对象,并使用etree.HTML()读取
    @return:
    """
    # 从本地文件中读取 book.html 文档,并使用标准的html解析器
    self.html_load = etree.parse("book.html", etree.HTMLParser())
    # 这里在末尾特意少了一个</li>,用来测试,最后是否自动补全
    self.html_str = """
    <div class="fruits-container">
        <ul>
             <li class="item-0"><a href="apple.html">苹果</a></li>
             <li class="item-1"><a href="orange.html">"橘子"</a></li>
             <li class="item-inactive"><a href="banana.html"><span class="bold">香蕉</span></a></li>
             <li class="item-1"><a href="pear.html">香梨</a></li>
             <li class="item-0"><a href="strawberries.html">草莓</a></li>
             <li class="item-0"><a href="pineapple.html">菠萝</a>
         </ul>
     </div>
    """
    pass
  • 将 Element对象转为字符串
def test_tostring(self):
    """
    获取 html中的最外层的div标签
    @return:
    """
    html_div = self.html_load.xpath('//div[@class="bookstore-container"]')
    print(html_div)
    # 将 html对象转换成字符串是 bytes 类型,并且格式化输出,并进行解码
    print(etree.tostring(html_div[0], pretty_print=True, encoding="utf-8").decode())
    pass

在这里插入图片描述

  • 解析获取豆瓣读书的基本信息:

通过 xpath 将书的链接,书名,作者等存入到 mongodb 中

def test_load_file(self):
    """
    获取 html中所有的li标签
    @return:
    """
    html_li = self.html_load.xpath('//li[@class="bookstore-item"]')
    # 遍历 class="bookstore-item" 的所有li标签
    book_list = []
    for key, li in enumerate(html_li):
        # 获取当前li标签下的a标签的href属性
        url = li.xpath("./a/@href")
        # 获取当前li 标签下的 div=title的文本内容
        title = li.xpath(".//div[@class='title']/text()")
        # 获取当前 li 标签下的 div=author的文本内容
        author = li.xpath(".//div[@class='author']/text()")
        # 获取当前li 标签下的 div=price的文本内容
        price = li.xpath(".//div[@class='price']/text()")
        # 获取当前li 标签下的 div=score的文本内容
        score = li.xpath(".//div[@class='score']/text()")
        # 获取当前li 标签下的 div=publisher的文本内容
        publisher = li.xpath(".//div[@class='publisher']/text()")
        book_dict = {
            # "_id": key,  # 主键
            "url": Tools.get_list_element(url, 0),
            "title": Tools.get_list_element(title, 0),
            "author": Tools.get_list_element(author, 0),
            "price": Tools.get_list_element(price, 0),
            "score": Tools.get_list_element(score, 0),
            "publisher": Tools.get_list_element(publisher, 0)
        }
        book_list.append(book_dict)

    # 格式化打印数据
    pprint(book_list)

    # 将数据存入到 mongodb中
    res = MongoPool().test.bookstore.insert_many(book_list)
    print(res.inserted_ids)
  • 结果:
    在这里插入图片描述
  • mongo 的数据
    在这里插入图片描述
2、对 html的内容进行解析

这是直接使用 etree.HTML()进行分析,它一般是来解析来自远程响应的内容,并自带修复 html 标签的功能

  • html的结构
<div class="fruits-container">
    <ul>
         <li class="item-0"><a href="apple.html">苹果</a></li>
         <li class="item-1"><a href="orange.html">"橘子"</a></li>
         <li class="item-inactive"><a href="banana.html"><span class="bold">香蕉</span></a></li>
         <li class="item-1"><a href="pear.html">香梨</a></li>
         <li class="item-0"><a href="strawberries.html">草莓</a></li>
         <li class="item-0"><a href="pineapple.html">菠萝</a>
     </ul>
 </div>
  • 代码:
def test_parse_html(self):
    """
    使用 etree.HTML() 解析 html 文档
    etree.HTML() 会修复 html 标签,并且将 html 转化成 html 对象
    @return:
    """
    html = etree.HTML(self.html_str)
    print(etree.tostring(html, pretty_print=True, encoding="utf-8").decode())

    # 获取class=item-inactive的 标签最终的 text 内容
    text_list = html.xpath('//li[@class="item-inactive"]//text()')
    print(text_list)

    # 获取class=item-0 的最后一个标签的 text 内容
    itme0_last_text = html.xpath('//li[@class="item-0"][last()]//text()')
    print(itme0_last_text)

    # 获取class=item-1 的所有链接地址
    item1_href = html.xpath('//li[@class="item-1"]//a/@href')
    print(item1_href)

    # 查找所有class=bold 的标签,*所有标签
    bold_info = html.xpath('//*[@class="bold"]')
    # 将 bold_tag 转化成字符串
    print(etree.tostring(bold_info[0], pretty_print=True, encoding="utf-8").decode())
    print(bold_info[0].tag)
    pass

经过测试,打印出来的内容,自动补全为标准化 html
在这里插入图片描述
解析的结果:
在这里插入图片描述

  • 10
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Python爬虫Scrapy项目入门是一个非常好的学习资源,它可以帮助初学者快速入门Scrapy框架,掌握爬虫的基本原理和技巧。在学习过程中,我们需要掌握Scrapy的基本组成部分,如Spider、Item、Pipeline等,同时还需要了解如何使用XPath和CSS选择器来解析网页内容。此外,我们还需要学习如何使用Scrapy的中间件来处理请求和响应,以及如何使用Scrapy的调度器来管理爬虫任务。总之,Python爬虫Scrapy项目入门是一个非常实用的学习资源,可以帮助我们快速掌握Scrapy框架的基本知识和技能。 ### 回答2: Python爬虫是一种程序,可以自动化地从互联网上抓取数据,并将其保存到本地或者数据库中。它主要是用于处理一些大量数据的项目,例如搜索引擎、在线商店等等。 Scrapy是一个Python爬虫框架,提供了强大的数据提取和处理工具。Scrapy是用Python编写的,因此可以利用Python编程语言提供的强大功能,从而轻松地编写和维护大规模的网络爬虫项目。 下面是Python爬虫Scrapy项目入门的基本步骤: 1. 安装Scrapy 在安装Scrapy之前,需要先安装Python,然后使用以下命令安装Scrapy: pip install scrapy 2. 创建一个新的Scrapy项目 使用以下命令创建一个新的Scrapy项目: scrapy startproject project_name 3. 编写爬虫程序 进入新创建的项目目录,使用以下命令创建一个新的spider(爬虫): scrapy genspider spider_name website_name 然后针对所爬取的页面编写爬虫程序。该程序需要指定爬取的起始URL,以及如何爬取和处理数据。 4. 运行爬虫程序 使用以下命令运行爬虫程序: scrapy crawl spider_name 可以在命令行中查看程序输出信息以及收集到的数据。 5. 存储数据 通过编写pipeline来将所爬取的数据存储到本地文件或数据库中。pipeline也可以用于对数据进行清洗、去重等处理。 6. 优化项目 可以通过调整Scrapy的配置来优化项目。例如设置User-Agent、延迟请求等,防止被目标网站识别出是爬虫,并被封禁。 通过以上步骤,可以轻松地入门Python爬虫Scrapy项目,并编写自己的爬虫程序,收集所需的数据。Scrapy提供了很多丰富的功能和工具,使得爬虫开发更加简单、高效。 ### 回答3: Scrapy是Python下用于数据挖掘和数据爬取的一个开源框架,其崇尚规范的设计和高效的性能,使得开发者可以更加快捷、高效、可靠地获取大量数据。 在使用Scrapy进行爬虫项目入门时,首先需要安装Scrapy和依赖的库。在安装好Scrapy后,我们可以通过命令行工具开始新建一个爬虫项目,在新建的项目中,我们可以构建爬虫的main流程,包括Scrapy框架的各个模块以及管道和中间件。 然后我们需要编写爬虫规则,制定爬虫的起始URL、要爬取的数据、数据的处理方法等等。此外,如果需要登录、翻页等高级功能的话,我们还需要对爬虫规则进行扩展和调整。 编写好爬虫规则后,我们可以通过Scrapy提供的各种调试工具进行调试,在确定爬虫的工作正常后,我们可以通过配置Scrapy中间件和管道,将爬取到的数据进行清洗、处理和存储。 总体来说,Scrapy是一个强大的数据爬取工具,它简化了数据爬取过程中各种繁琐的操作,让开发者可以专注于爬取和处理数据本身。而对于初学者来说,要掌握Scrapy的使用,需要多动手实践,积极与开发者社区互动和交流,逐步提高对Scrapy框架的理解和应用水平。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值