scrapy使用用Xpath提取深层标签

最新推荐文章于 2024-06-28 15:36:23 发布

子林Android

最新推荐文章于 2024-06-28 15:36:23 发布

阅读量3.1k

点赞数

分类专栏： python 文章标签： scrapy 爬虫 xpath 多层嵌套提取

本文链接：https://blog.csdn.net/fxjzzyo/article/details/80716685

版权

python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

在使用scrapy框架做爬虫时，有两种方式对标签内容进行提取：css和Xpath。基本的标签内容，属性提取都很容易。但对于多层嵌套的标签，如何提取到最里层的内容呢？

举个栗子：
网页HTML内容是

"<p id='test'>hello<b>world!</b></p>"

如何一下子提取到hello world!呢？
用css的话需要写两次选择：

response.css('#test::text').extract_first()
response.css('#test b::text').extract_first()

这个简单的例子还似乎可以这样做，但是实际项目中可没这么简单，往往是整篇文章都是嵌套的段落，文字，外面是p便签，里面是多层span标签，而且个数还不一致，根本无法一个个写。。。

因此，需要一种一次性提取最里层内容的方法！

用Xpath可以做到


response.xpath("string(//p[@id='test'])").extract()
# 或者
response.xpath("//p[@id='test']").xpath('string(.)').extract()

# 输出：['helloworld!']

至于xpath的用法，可以参考这篇文章的总结：
https://www.cnblogs.com/MUMO/p/5732836.html

参考文章：
http://www.cnblogs.com/qlshine/p/5926101.html
https://www.cnblogs.com/MUMO/p/5732836.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

子林Android

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Scrapy爬虫框架进行数据解析使用Scrapy内建的Xpath进行数据解析

模板君MuBanJun.CN

05-22

423

按照前面几篇文章的做法，创建scrapy工程，进入到spiders文件夹中创建爬虫，然后修改settings.py文件，让它不遵从robots协议并更换UA，指定日志等级为error： USER_AGENT = 'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)' ROBOTSTXT_OBEY = False LOG_LEVEL='ERROR' 爬虫文件还是跟前面的一样，不过这里需要进行

解析python网络爬虫pdf 黑马程序员_正版解析Python网络爬虫核心技术 Scrapy框架分布式爬虫黑马程序员 Python应用编程丛书中国铁道出版社...

weixin_39687192的博客

12-22

2055

商品参数书名:Python应用编程丛书:解析Python网络爬虫:核心技术、Scrapy框架、分布式爬虫定价：52.00元作者:[中国]黑马程序员出版社：中国铁道出版社出版日期：2018-08-01ISBN：9787113246785字数：页码：版次：装帧：平装-胶订开本：16开内容介绍网络爬虫是一种按照一定的规则，自动请求万维网网站并提取网络数据的程序或脚本，它可以代替人力进行信...

参与评论您还未登录，请先登录后发表或查看评论

xpath提取多个标签下的text

weixin_30737433的博客

01-17

912

xpath提取多个标签下的text title: xpath提取多个标签下的text author: 青南 date: 2015-01-17 16:01:07 categories: [Python] tags: [xpath,Python,xml,scrapy] --- 本文首发在http://kingname.info 在写爬虫的时候，经常...

【scrapy】3.XPath解析

最新发布

铁盒薄荷糖的博客

06-28

658

示例：//a[@class='active' and @href='/home'] 可以匹配同时满足 class 属性值为 "active" 和 href 属性值为 "/home" 的元素。示例：//a[@class='active' or @class='highlight'] 可以匹配class属性为"active"或"class"属性为"highlight"的a元素。//父元素名[@属性名1='属性值1']/子元素名[@属性名2='属性值2']：通过指定父元素和子元素的属性条件来定位元素。

scrapy之xpath解析豆瓣及豆瓣模拟登录

shrimper

04-08

572

round1:爬取的是用户个人介绍，本来以为直接response.xpath('//span[@id="intro_display"]/text()'.get()不香吗，结果别人整个链接，然后只能爬取博客地址。如果直接用extract(),又只会返回列表。这边我用user['introduction'] = "".join(response.xpath('//span[@id="intro_display"]/text()').re(r"(.*)")) 得到的是： blog地址：看书，写字，出去走走，喜.

Scrapy-Xpath 实例

avmgcehjk98828335的博客

02-18

170

Refer to :https://doc.scrapy.org/en/latest/topics/selectors.html#topics-selectors >>> from scrapy import Selector >>> doc = u""" ... <div> ... <ul> ... ...

python使用xpath提取数据_Scrapy/Python/XPath-如何从数据中提取数据？

weixin_34768798的博客

01-29

475

我是Scrapy新手，刚开始研究XPath。我正试图从一个div中的html列表项中提取标题和链接。下面的代码是我想如何进行的(选择ul div，按I d，然后在列表项中循环)：def parse(self, response):for t in response.xpath('//*[@id="categories"]/ul'):for x in t.xpath('//li'):item = T...

对Xpath 获取子标签下所有文本的方法详解

09-19

本文将深入探讨如何使用XPath来获取子标签下的所有文本内容。在XML或HTML结构中，一个元素可能包含多个子元素，每个子元素又可能有各自的文本内容。有时，我们可能需要提取某个父元素下所有子元素的文本，而不仅仅...

请使用Scrapy爬取58同城二手房目标网站url地址为https://cq.58.com/ershoufang/。 1、要求爬取重庆挂牌出售的全部二手房信息信息。爬取信息包括卖点、楼盘、楼盘地址、房屋户型、楼层、建筑年代、每平单价、房屋总价。 2、将爬取信息存储在mysql数据库中。58同城二手房案例时需要重点关注分页以及网页深层数据爬取的实现。爬取页面如图1，2所示。

05-31

在该示例代码中，我们使用了Scrapy框架进行网页爬取，并使用了XPath和CSS选择器对网页元素进行定位和提取。爬取到的信息存储在一个自定义的Item对象中，并使用ItemLoader对数据进行处理。最后，我们将爬取到的数据...

Scrapy中的深度优先和广度优先爬取策略

# 1. 爬虫框架简介 ## 1.1 Scrapy框架概述 ...2. 下载网页内容，并解析提取需要的数据。 3. 根据解析结果，获取新的URL，继续发起请求。 4. 重复上述步骤，直到满足停止条件。 Scrapy框架通过调度器、下载器

scrapy框架半自动处理验证码豆瓣网模拟登陆

有人的地方，就是江湖

06-01

998

scrapy框架半自动处理验证码豆瓣网模拟登陆一、本文要解决的问题通过爬虫来模拟登陆豆瓣网解决多次登陆时出现的图片验证码问题登陆之后，保持登陆状态，对深层次的页面进行爬取。二、实现思路通过Fiddler进行抓包分析之后，发现了登陆的规律：即向固定的网址POST相关数据，其中可以发现包括用户名和密码。因此，我们可以手动构造要发送的数据： data = { "c

Scrapy中XPath选择器的基本用法

热门推荐

Jock2018的博客

03-21

2万+

Scrapy中XPath选择器的基本用法1、前言2、多级定位和跳级定位标签元素1. 多级定位2. 跳级定位3. 利用属性更加准确的定位标签4. 提取定位标签中的text信息5. 提取定位标签中的属性信息6. 参考资料 1、前言本文是作为爬虫项目实战一：基于Scrapy+MongDB爬取并存储糗事百科用户信息的补充，所以本文的网页选择也是基于糗事百科展开。XPath主要使用在XML文档中选择节点，...

python爬虫xpath提取数据_【Python基础】Python爬虫的两套解析方法和四种信息提取方式...

weixin_39621235的博客

11-29

393

Python爬虫Author：IouwillMachineLearning Lab分享一篇往日旧文章，非常实用。对于大多数朋友而言，爬虫绝对是学习python的最好的起手和入门方式。因为爬虫思维模式固定，编程模式也相对简单，一般在细节处理上积累一些经验都可以成功入门。本文想针对某一网页对python基础爬虫的两大解析库(BeautifulSoup和lxml)和几种信息提取实现...

python深度爬虫_限制爬虫爬虫的页面深度

weixin_39906245的博客

02-10

437

我有一个抓取器，该抓取器接收URL列表，然后扫描它们以查找其他链接，然后它接着查找类似于电子邮件(使用REGEX)的任何内容，并返回URL /电子邮件地址列表。我目前在Jupyter笔记本中设置了它，因此在测试时可以轻松查看输出。问题是，它需要永远运行-因为我没有限制刮板的深度(每个URL)。理想情况下，刮板从每个起始URL最多可以进入2-5页。这是我到目前为止的内容：首先，我要导入依赖项：imp...

scrapy提取数据之：xpath选择器

superwshu

04-15

3567

css选择器；虽然一招半式足以称霸江湖，但这里老夫还想再传授诸位一招：xpath提取！好好学，技多不压身。还是从几个方面说：一、属性提取；二、内容提取；三、标签内包含标签又包含标签的最外层标签里的所有内容提取；会了这些基本也就会了，反正scrapy用到的就这么几个知识，少之又少，不要想着除了这些还有神马冰上之下，绝对木有，请放心，如果真的有，我会再末尾给诸君写一些例子，依葫芦画瓢就行，那接下来就开...

scrapy框架中的Xpath语法以及去掉所有标签的方法

之度的博客

03-29

3940

参考网站https://www.w3school.com.cn/xpath/xpath_syntax.asp 表达式描述 nodename 选取此节点的所有子节点。 / 从根节点选取。 // 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。 . 选取当前节点。 .. 选取当前节点的父节点。 @ 选取属性。实例 ...

使用xpath 定位 p标签，定位到了，但取不到内容。。。，爬虫：番组计划

liumangjuntuan的博客

07-05

1万+

这是我爬取的目标网站start_url： http://bangumi.tv/person/1/works/voice在抓取角色页的日文名字和名字的href属性时，都成功了，详细的日文名字的定位xpath语法如下：role_item["role_japanese_name"] = role.xpath('./div[@class="ll innerLeftItem"]//h3/a/text()...

scrapy框架使用xpath

10-18

好的，关于Scrapy框架使用XPath，你可以在Scrapy的Spider中使用Selector来进行XPath选择器的操作。具体步骤如下： 1. 在Spider中引入Selector： ``` from scrapy.selector import Selector ``` 2. 在Spider的parse...