scrapy 提取多层嵌套标签下的所有文本

最新推荐文章于 2022-09-19 09:56:18 发布

嵩桓

最新推荐文章于 2022-09-19 09:56:18 发布

阅读量2.6k

点赞数 5

分类专栏：爬虫文章标签： scrapy 多层标签下的文本

本文链接：https://blog.csdn.net/weixin_41666051/article/details/83002245

版权

爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

怎样才能一次性提取多层嵌套标签的所有文本，详细如下：

假如页面如下：

<p id='test'>hello<b>world!</b></p>

我要的提取结果是：world!（假设world是很多标签组合的文本）

这里就需要注意text()的使用了：

首先设置sel = Selector(text=doc, type='html')

如果text()前面使用一个反斜杠：sel.xpath("//p[@id='test']/text()").extract()

得到的结果是：[u'hello'],只能提取到其根标签下的文本，不能提取到子标签下的文本

方法一：

如果text()前面使用两个反斜杠：sel.xpath("//p[@id='test']//text()").extract()

这样提取出来的是一个列表，得到的结果是：[u'hello', u'world!']

然后再将列表循环拼接即可得到想要的结果：helloworld!。

根据自己的需要根据下标提取

方法二：

sel.xpath("//p[@id='test']").xpath('string(.)').extract()

结果是：['helloworld!']，是已经拼接好的，需要使用正则表达式来来获取到自己想要的结果

参考：http://www.cnblogs.com/qlshine/p/5926101.html

参考：https://blog.csdn.net/Y_321_123/article/details/81413010

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

嵩桓

关注关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python二级题库（百分之九十原题）刷题软件推荐第六套

sybh的博客

09-21

3137

刷题软件（模拟python二级考试）操作题刷题软件公众h：露露IT 回复：python二级

Python 全栈工程师必备面试题 300 道（2020 版）

Python美丽星球--微信(Felixzfb)

12-30

1万+

Python 全栈工程师核心面试 300 问深入解析（2020 版） Python 面试不仅需要掌握 Python 基础知识和高级语法，还会涉及网络编程、web 前端后端、数据库、网络爬虫、数据解析、数据分析和数据可视化等各方面的核心知识。针对网上资料参差不齐，并且自己上网寻找费时费力，效果还不好的问题，进行该 Chat 创作。本人结合自己多年的开发经验，同时汲取网络中的精华，本着打造全网最全面...

参与评论您还未登录，请先登录后发表或查看评论

python xpath定位嵌套标签_python爬虫中使用Xpath方法定位a标签中所有的子标签的方法...

weixin_42332144的博客

02-09

2409

老板扔给了我一个陈年语料，让我通过文章标题回原网址爬取一下对应的doi号，文章很好定位，但是在解析标题的时候遇到了问题，a标签中混合了i、sub、sup标签，在使用xpath时不能直接使用text方法获取，所以在这里记录一下自己的解决方案。(想不到，做完这个任务，我顺便学会了希腊字母的读音:^)1 xpath定位本篇博客以抓取我的主页中的某条标题为例。鼠标右键要爬的内容，点击“检查”，然后继续右键...

scrapy 一次性提取多层嵌套标签的所有文本

zhengxiangwen的专栏

06-28

8299

怎样才能一次性提取多层嵌套标签的所有文本，而不是通过循环判断来进行拼接呢。详细如下：假如页面如下： helloworld! 我要的提取结果是：helloworld! 这里就需要注意text()的使用了：首先设置sel = Selector(text=doc, type='html') #如果text()前面使用一个反斜杠：sel.xpath("//p[@id='test']

scrapy 中不同页面的拼接_极简Scrapy爬虫2：爬取多页内容

weixin_39876002的博客

12-21

184

运行环境：* Python 2.7.12* Scrapy 1.2.2* Mac OS X 10.10.3 Yosemite继续爬取Scrapy 1.2.2文档提供的练习网址：可以暂时不用考虑爬虫被封的情况，用于初级爬虫练习。目标爬取该网站所有页的名言(quote)、作者(author)以及标签(tag)。增加内容response.urljoin()：将相对网址拼接成绝对网址。scrapy.Requ...

Scrapy提取嵌套标签的text

从零开始学习python --zeropython

05-16

307

对于要提取嵌套标签所有内容的情况, 使用string或//text(), 注意两者区别 Python >>> from <span class="wp_keywordlink_affiliate"><a href="htt...

dom(一)——获取文本内容的方法

热门推荐

AlexDQ的博客

03-22

2万+

在利用DOM获取节点之后有多种方法可以获取节点中的文本内容 1. innerHTML innerHTML可以作为获取文本的方法也可以作为修改文本内容的方法 element.innerHTML 会直接返回element节点下所有的HTML化的文本内容文本文本 document.body.innerH

python爬虫学习33

szshiquan的博客

04-29

1108

python爬虫学习33 目录python爬虫学习33Beautiful soup的学习其四八、CSS选择器8-1 嵌套选择8-2 获取属性8-3 获取文本 Beautiful soup的学习其四之前我们一同学习了，beautiful soup方法选择器——find_all（）方法和find（）方法。此外，beautiful soup还提供了另一种选择工具——CSS选择器。八、CSS选择器光说不练假把式，上例子! from bs4 import BeautifulSoup html = """ &l

最全python爬虫面试笔试题及答案汇总，三万多字，持续更新，适合新手，应届生

u012424313的博客

07-03

1万+

目录一些经典的Python爬虫和网络编程面试题... 1 1、动态加载又对及时性要求很高怎么处理？... 1 2、分布式爬虫主要解决什么问题？... 1 3、什么是 URL？... 1 4、python 爬虫有哪些常用技术？... 1 5、简单说一下你对 scrapy 的了解？... 1 6、Scrapy 的优缺点?. 1 7、scrapy 和 request?. 1 8、五层...

正则表达式获取嵌套HTML标签中的内容

u012725119的专栏

09-19

735

正则表达式获取嵌套html标签内容

scrapy中的提取正文的方法

weixin_33913377的博客

08-21

320

用scrapy shell来测试http://finance.ifeng.com/a/20140821/12969341_0.shtml，提取正文 1.response.xpath('//div[@id="main_content"]/text()').extract()提取到的不是空的，就是\n,\t之类的字符text()是取此xpath内部第一级纯文本，所以只适合提取纯...

正则匹配抓取input 隐藏输入项和 <td>标签内的内容

weixin_34293059的博客

02-15

281

这里不多作解释了，只要提供方法，如果想了解正则匹配，就去百度。第一条是，匹配出所有的隐藏输入域 1 $patern = "/<input(.*?)type=\"hidden\"(.*?)name=\"(.*?)\"(.*?)value=\"(.*?)\"(.*?)>/im"; 2 if(preg_m...

Scrapy 学习笔记（一）数据提取

weixin_30535565的博客

07-06

Scrapy 中常用的数据提取方式有三种：Css 选择器、XPath、正则表达式。 Css 选择器 Web 中的 Css 选择器，本来是用于实现在特定 DOM 元素上应用花括号内的样式这样一个功能的。在爬虫中，我们可以用它来选择提取出需要的内容。Css 有非常丰富的功能，因为我们只用它提取数据，我们只会用到 Css 的选择器。标签选择器：直接写标签名，比如title就表示选择 ti...

[Scrapy教学4]掌握Scrapy框架重要的CSS定位元素方法

学海无涯苦作舟的博客

03-06

1174

想要开发的Python网页爬虫的朋友，知道都会定位元素（元素）是一个非常重要的动作，在[Scrapy3教学]如何有效利用Scrapy建立框架|网页爬虫看这篇就懂文章中，使用了Scrapy框架的BS4模组（Module ），也就是BeautifulSoup的语法，来示范爬取目标网页中的HTML元素（Element）。但事实上，Scrapy本身框架就有提供自己的定位元素（元素）方法（方法），包含CSS与XPath的两种，而本文将延续使用[Scrapy3教学]如何有效利用Scrapy框架建立网页爬虫看这篇就懂.

前端提高篇(八十四)：jQuery的文本属性：text()、html()、val()

安之ccy的博客

03-28

1974

1.text() 对应js中的innerText属性，jQuery中的text也可读可写 1.1 可读： <div id="test">hello</div> <button id="btn">btn</button> $('#btn').click(function(){ console.log ( $('#test').text()); }) 效果：点击一下btn按钮，控制台输出#test的文本 1.2 可写： 1.2.1 如果获取dom元素，

python之scrapy的使用和获取标签内部全部文本的四种方式

Y_321_123的博客

08-04

1万+

在使用爬虫爬取数据的时候，经常需要获取标签内的文本，下面向大家介绍四种获取文本的方式（以小说吧中的一篇帖子为例，链接为：https://tieba.baidu.com/p/5806279867）：第一步：打开终端，在指定文件夹下创建一个新的项目，并且按照提示输入两个命令第一个命令进入tieba这个文件夹第二个命令创建一个名字为sto...

scrapy 中selector对象提取数据。

MZP_man的博客

06-17

2466

1，创建对象 Selector类的实现位于scrapy.selector模块，创建Selector对象时，可以将页面的HTML文档字符传递给Selector对象的构造方法的text参数或者直接传递页面response对象参数也行。例如： from scrapy.selector import Selector # 方法一、 text ="<html>.........</ht...

笔记-scrapy-Selector

akuibpt23191的博客

04-19

170

笔记-scrapy-Selector 1. Selector scrapy自带文本解析器，支持xpath,css等方法。 1.1. 基础使用调试时常需要从text中解析数据，使用方法如下： from scrapy.selector import Selector page_data = Selector(text=’’,type=’html/xm...

scrapy 选择html,Scrapy选择器（Selector）

weixin_36250200的博客

06-09

189

我们使用下面的代码片段在本章中来定义选择器不同的概念：My WebsiteScrapy Hello world Link 1 Link 2 Link 3构造选择器可以通过text或TextResponse对象构造选择器类的实例。根据所提供的输入类型，选择器选择以下规则：from scrapy.selector import Selectorfrom scrapy.http im...

具体说下xpath规则

最新发布

09-09

### 回答1： XPath规则是一种用于在XML文档中定位元素和属性的语法规则。它使用路径表达式来描述文档结构中的节点，可以通过节点名称、属性、位置等方式进行定位。XPath规则通常以斜杠(/)开头，表示从文档根节点开始进行定位。例如，/bookstore/book[1]/title表示定位到第一个book节点的title子节点。XPath规则还支持一些函数和运算符，可以进行更复杂的定位操作。 ### 回答2： XPath（XML Path Language）是一种用于在XML文档中定位元素的规则语言。以下是XPath规则的具体说明： 1. XPath使用路径表达式来定位元素。路径表达式由一系列的节点和操作符组成，用于描述元素的位置关系。 2. XPath使用/符号来表示元素之间的层级关系。例如，/bookstore/book表示bookstore元素下的所有book元素。 3. XPath使用//符号来表示在整个文档中查找元素。例如，//book表示在整个文档中查找所有book元素。 4. XPath使用[@属性名='属性值']来选择具有特定属性值的元素。例如，//book[@category='fiction']表示查找所有category属性值为fiction的book元素。 5. XPath使用[position()]来选择特定位置的元素。例如，//book[position()<3]表示查找前两个book元素。 6. XPath使用[text()]来选择指定文本内容的元素。例如，//book[text()='Harry Potter']表示查找文本内容为Harry Potter的book元素。 7. XPath使用逻辑运算符如and、or和not来组合多个条件。例如，//book[@category='fiction' and @price>10]表示查找category属性值为fiction且price属性大于10的book元素。 8. XPath还支持通配符来选择多个匹配模式的元素。例如，//book[contains(@title, 'XML')]表示查找title属性包含XML的book元素。总之，XPath提供了丰富的定位和选择元素的规则，使得我们能够更加灵活和精确地在XML文档中定位所需的元素。 ### 回答3： XPath（XML Path Language）是一种用于在XML文档中定位元素的语言。XPath使用路径表达式来选择XML文档中的节点或节点集合。下面是一些XPath规则的具体说明： 1. 节点选择规则： - 路径表达式使用斜杠（/）表示从根节点开始进行路径选择。 - 双斜杠（//）表示选择所有符合条件的节点，不考虑位置。 - 单斜杠（/）表示选择当前节点的直接子节点。 - 句点（.）表示当前节点。 - 句点两个点（..）表示选择当前节点的父节点。 2. 谓语规则： - 谓语用于对节点进行更精确的选择。它们由方括号（[]）包围。 - 谓语可以包含条件表达式，例如[@属性名称='属性值']用于选择具有指定属性和属性值的节点。 3. 节点类型规则： - XPath指定了不同类型的节点，如元素节点（element node）、属性节点（attribute node）、文本节点（text node）等。 - 使用节点类型来选择特定类型的节点，例如使用@符号选择属性节点。 4. 轴规则： - 轴用于沿着节点和文档树进行导航。 - 常用的轴有child、parent、ancestor、descendant等，它们用于相对于当前节点选择相关节点。 5. 通配符规则： - 通配符“*”用于匹配任意类型的节点。 - 通配符“@*”用于选择具有任意属性的节点。 XPath规则可以根据具体的需求进行组合和嵌套，以便更准确地选择和定位XML文档中的节点。在实际应用中，XPath非常有用，可以用于解析XML文档、提取特定数据和进行数据筛选等任务。