【Python爬虫】借助某猪的案例写关于辅助xpath解析的小装饰器

最新推荐文章于 2023-12-29 12:13:25 发布

Yakuho

最新推荐文章于 2023-12-29 12:13:25 发布

阅读量210

点赞数

分类专栏： Python爬虫 Python 文章标签： python

本文链接：https://blog.csdn.net/weixin_41861700/article/details/107752834

版权

Python爬虫同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

Python

8 篇文章 0 订阅

订阅专栏

此案例用简单selenium完成且重点在于解析数据

到达目标页面

通过百度搜索某猪的民宿，我们到达了目标的列表页，并记录下目标的URL
在这里插入图片描述

配置相关Selenium获得页面page_source

例如配置长这样
在这里插入图片描述

通过Xpath解析文本

例如解析这些数据
在这里插入图片描述
或许已经注意到了，类装饰器有itemStrip这玩意吗？？？答案是这玩意是我编出来的。那么它的作用是什么?

辅助Xpath的小装饰器

装饰器的代码如下：

def itemStrip(function):
    def a(items):
        for item in items:
            for i in range(len(item)):
                try:
                    item[i] = item[i][0]
                except IndexError:
                    item[i] = ''
            yield item

    def b(*args, **kwargs):
        items = function(*args, **kwargs)
        striped = a(items)
        return striped
    return b

他的作用只是完善一下xpath寻值的操作。
在使用lxml.etree的xpath找值的时候，它返回的是一个列表。如果在《通过Xpath解析文本》这个图中，没有添加这个生成器，它返回的是一个这种格式的数据。

[[...], [...], [...], [...], [...], [...], [...], [...]]

如果不用装饰器来解决，就需要写8个这样的语句来完成

xx = ''.join(xx) if xx else ''

而套上装饰器，仅需要在使用xpath解析数据前，加上@itemStrip 就可以直接yield数据了，省去了写多个语句的功夫。装饰器对应一些重复性的工作有奇效。

最终效果

在这里插入图片描述
python装饰器是一个能提升效率的一个魔法方法之一。这就是关于辅助xpath解析的小装饰器的一个小案例。

Yakuho

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录