Scrapy下xpath基本的使用方法

最新推荐文章于 2024-10-07 08:14:17 发布

TURING.DT

最新推荐文章于 2024-10-07 08:14:17 发布

阅读量921

点赞数

分类专栏： Python 爬虫

本文链接：https://blog.csdn.net/levy_cui/article/details/52816943

版权

Python 同时被 2 个专栏收录

44 篇文章 6 订阅

订阅专栏

爬虫

3 篇文章 0 订阅

订阅专栏

Scrapy是基于python的开源爬虫框架，使用起来也比较方便。具体的官网档：http://doc.scrapy.org/en/latest/
之前以为了解python就可以直接爬网站了，原来还要了解HTML，XML的基本协议，在了解基础以后，在了解下xpath的基础上，再使用正则表达式(python下的re包提供支持)提取一定格式的信息（比如说url），就比较容易处理网页了。
xpath是Scrapy下快速提取特定信息（如title,head,href等）的一个接口。

几个简单的例子：
/html/head/title: 选择HTML文档<head>元素下面的<title> 标签。
/html/head/title/text(): 选择前面提到的<title> 元素下面的文本内容
//td: 选择所有 <td> 元素
//div[@class="mine"]: 选择所有包含 class="mine" 属性的div 标签元素

基本的路径意义：

具体的使用实例：
比如对http://www.dmoz.org/Computers/Programming/Languages/Python/Books/ 网站提取特定的信息
1）、先在第一层tutorial文件夹下，在cmd中输入： scrapy shell http://www.dmoz.org/Computers/Programming/Languages/Python/Books/
2）、现在比如我们需要抓取该网页的tittle，由于前面的shell命令已经实例化了一个selector的对象sel，就输入 sel.xpath('//title') 获取了网页的标题。
3）、比如我们想要知道该网页下的www.****.com形式的链接，可以使用xpath 结合正则表达式re提取信息，输入 sel.xpath('//@href').re("www.[0-9a-zA-Z]+\.com")