Python 爬虫第三步 -- 多线程爬虫爬取当当网书籍信息

最新推荐文章于 2024-04-26 03:23:26 发布

hwaphon

最新推荐文章于 2024-04-26 03:23:26 发布

阅读量6.5k

点赞数 1

分类专栏： Python Python 爬虫入门教程文章标签： python 当当网多线程爬虫正则表达式

本文链接：https://blog.csdn.net/Hwaphon/article/details/52279293

版权

本文介绍了Python使用XPath进行网页解析，并通过多线程提高爬虫效率。作者对比了XPath与正则表达式，详细讲解了XPath的安装、使用及特殊用法。随后，文章探讨了Python的多线程实现，通过实例展示了多线程在爬虫中的应用，尤其是在抓取当当网书籍信息时，多线程显著提升了爬取速度。

摘要由CSDN通过智能技术生成

XPath 的安装以及使用

1 . XPath 的介绍

刚学过正则表达式，用的正顺手，现在就把正则表达式替换掉，使用 XPath，有人表示这太坑爹了，早知道刚上来就学习 XPath 多省事啊。其实我个人认为学习一下正则表达式是大有益处的，之所以换成 XPath ，我个人认为是因为它定位更准确，使用更加便捷。

可能有的人对 XPath 和正则表达式的区别不太清楚，举个例子来说吧，用正则表达式提取我们的内容，就好比说一个人想去天安门，地址的描述是左边有一个圆形建筑，右边是一个方形建筑，你去找吧，而使用 XPath 的话，地址的描述就变成了天安门的具体地址。怎么样？相比之下，哪种方式效率更高，找的更准确呢？

2 . XPath 的安装

XPath 包含在 lxml 库中，那么我们到哪里去下载呢？点击此处，进入网页后按住 ctrl+f 搜索 lxml ，然后进行下载，下载完毕之后将文件拓展名改为 .zip ，然后进行解压，将名为 lxml 的文件夹复制粘贴到 Python 的 Lib 目录下，这样就安装完毕了。

3 . XPath 的使用

为了方便演示，我利用 Html 写了个简单的网页，代码如下所示（为了节省时间，方便小伙伴们直接进行测试，可直接复制粘贴我的代码）

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Test Html</title>
</head>
<body>
<div id="content">
    <ul id="like">
        <li>like one</li>
        <li>like two</li>
        <li>like three</li>
    </ul>

    <ul id="hate">
        <li>hate one</li>
        <li>hate two</li>
        <li>hate three</li>
    </ul>

    <div id="url">
        <a href="http://www.baidu.com">百度一下</a>
        <a href="http://www.hao123.com">好123</a>
    </div>
</div>

</body>
</html>

用谷歌浏览器打开这个网页，然后右击，选择检查，会出现如下所示界面

最低0.47元/天解锁文章

hwaphon

关注

1
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
Python 爬虫第三步 -- 多线程爬虫爬取当当网书籍信息

XPath 的安装以及使用1 . XPath 的介绍刚学过正则表达式，用的正顺手，现在就把正则表达式替换掉，使用 XPath，有人表示这太坑爹了，早知道刚上来就学习 XPath 多省事啊。其实我个人认为学习一下正则表达式是大有益处的，之所以换成 XPath ，我个人认为是因为它定位更准确，使用更加便捷。可能有的人对 XPath 和正则表达式的区别不太清楚，举个例子来说吧，用正则表达式提取我们的内容
复制链接

扫一扫

专栏目录