关于scrapy爬虫获取具体标签内容为空的解决方法

最新推荐文章于 2024-03-21 22:43:12 发布

用户忘记改名

最新推荐文章于 2024-03-21 22:43:12 发布

阅读量1w

点赞数 3

本文链接：https://blog.csdn.net/ainingzetao/article/details/81584552

版权

在确认自己xpath或css部分写对的前提下，且在浏览器该网站能匹配到相关内容，为空原因：

有些标签是浏览器规范化额外加上去的，实际的网页源码并没有，例如font,tbody,（目前就遇到这两个，大家可以自行查找还有哪些，不过操作应该差不多。）

解决方法：若代码pub_time = response.xpath('//ul[@class="article-info"]//font/font/text()').extract(),

应去掉font部分，更改为

pub_time = response.xpath('//ul[@class="article-info"]//text()').extract()。
如果拿多了其他内容，再进行处理。

新手爬虫，思路不是很清晰，大家仅供参考。

百度了下发现有类似的解决方法，大家可以看看https://bbs.csdn.net/topics/392341317下面有个回帖。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

用户忘记改名

关注关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

如何使用 Python 爬虫 Scrapy 获取网页（某度）内容？

weixin_43263566的博客

06-08

1705

如何使用 Python 爬虫 Scrapy 获取网页内容？

scrapy爬虫过程中无法提取script标签中动态数据问题的解决

lalalalla6133的博客

10-28

2056

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

1 条评论您还未登录，请先登录后发表或查看评论

scrapy-response.xpath中无法获取标签内容的问题

最新发布

qq_52772669的博客

03-21

422

网上说是【allowed_domains】需要补全，所以尝试了把【start_urls】的内容复制给了【allowed_domains】，最终尝试了发现是头信息里的cookie没有设置，scrapy默认用了它内部设置的头信息。使用scrapy爬取58同城的数据，发现xpath路径正确，第一次运行确实可以输出数据，但是第二次运行后却返回了一个空列表，代码如下。3.设置headers,添加cookie,以及UA，如果有referer的话也添加进去。又因为第一次运行时能够输出内容，因此排除了xpath路径问题。

python爬虫获取标签报错 href属性为空

zhunju0089的博客

12-07

2399

当用html.get('href')或者html[href'']来获取属性的时候，某些a标签中并没有href属性，此时会抛出异常，解决方法很简单，用异常处理语句块就能解决了 try: value = 'https://free3d.com' + target.get(attr) except: value = '' if valu...

scrapy爬虫获取豆瓣租房信息

06-17

最后，运行Scrapy爬虫。在项目根目录下，执行`scrapy crawl douBanRenting`，爬虫将开始抓取并处理豆瓣租房小组的帖子。通过这种方式，我们可以使用Scrapy框架有效地抓取豆瓣租房小组的信息，进行数据分析或构建...

python获取id标签对应数据_Python--Scrapy爬虫获取简书作者ID的全部文章列表数据

weixin_39845613的博客

12-05

1058

最近Python大火，为了跟上时代，试着自学了下。Scrapy是一个高级的Python爬虫框架,它不仅包含了爬虫的特性,还可以方便的将爬虫数据保存到csv、json等文件中。今天我们就试着用Scrapy来爬取简书某位作者的全部文章。在本篇教程中，我们假定您已经安装好Scrapy。如若不然，请参考安装指南。1.创建项目在开始爬取之前，我们必须创建一个新的Scrapy项目，我这里命名为jians...

scrapy爬虫下CSS的使用

12-22

总结起来，这个"scrapy爬虫下CSS的使用"项目重点介绍了如何在Scrapy中利用CSS选择器进行数据提取，这对于构建高效、可靠的网络爬虫至关重要。通过深入理解CSS选择器的用法，并结合Scrapy的`Selector`类，我们可以更...

爬虫爬取到标签内容有时为空有时正常，请问怎么解决？

湖北太米网络科技有限公司

11-03

2064

当爬虫爬取标签内容时，遇到有时为空有时正常的情况，可能是由于以下原因导致的：网站的动态内容：某些网站使用JavaScript来加载页面内容，爬虫在请求页面时可能无法获取到完整的HTML内容。这可能导致一些标签在某些时候为空。解决这个问题，你可以尝试使用Headless浏览器(如Puppeteer)来模拟浏览器行为加载动态内...

python爬虫论文摘要怎么写_Python 爬虫没有思路？可以看看这篇文章

weixin_39531780的博客

11-24

434

原标题：Python 爬虫没有思路？可以看看这篇文章可以说爬虫是学习 Python 的入门必修课。当能独立写出第一个完整的爬虫的时候，我们已经迈出了一大步。因为在这过程中，我们已经学会了如何查看文档，学会使用 Python 相关库的操作，怎样使用 Chrome 的开发者工具（相关工具）和把抓取的数据保存到数据库中等等一系列操作，当然收获最多的还是学习 Python 的自信心。下面以抓取知乎图片为例...

scrapy里面的response.xpath(“用xpath插件找打的路径“)返回值为空?

weixin_52021256的博客

10-17

782

response.xpath("用xpath插件找打的路径")返回值为空? 1.可能是因为路径是有问题的 2.可能是start_urls的路径是有问题的，可以从network中找找路径，复制一下

利用 scrapy 抓取信息， xpath 选择节点返回结果为空

Vinter Wang的博客

11-21

5336

摘自 scrapy 官方文档在处理爬虫项目时，完全去掉命名空间而仅仅处理元素名字，写更多简单/实用的XPath会方便很多。你可以为此使用 Selector.remove_namespaces() 方法。以Github博客的atom订阅来解释这个情况。首先，我们使用想爬取的url来打开shell: $ scrapy shell https://github.com/blog.atom...

scrapy 节点获取不了数据

weixin_44894145的博客

04-05

1016

scrapy 运行成功，节点没错误的情况下，列表数据返会是个的空列表时，可能遇到懒加载了比如节点： //img/@src 懒加载： //img/@src2 懒加载是还没加载的数据，让选择器获取在网页上获取的节点，但数据没加载出来，那就获取不到数据，所item列表就是空的，获取懒加载的节点就可，不知道是不是懒加载就不整个网页获取，在分析下，就能解答这个迷惑希望对你们有帮助 ...

Scrapy框架下Response值为空

baidu_39039204的博客

06-09

1449

在Scrapy框架如果出现Response值为空不妨检查一下settings.py里面的 ROBOTSTXT_OBEY 条件项是否为 “TRUE” 如果

scrapy中使用正确的xpath出现空列表问题

qq_45559536的博客

06-02

2548

今天在使用scrapy框架爬取网页时，使用正确的xpath来爬取时，爬取的缺失空列表，代码如下： # -*- coding: utf-8 -*- import scrapy class HaodfSpider(scrapy.Spider): name = 'haodf' start_urls = ['http://bbs.tnbz.com/forum-6-2.html'] def parse(self, response): for item in respon

scrapy xpath空列表_Python 爬虫之Scrapy中

weixin_42515340的博客

01-13

335

1基本概念说明Scrapy数据解析主要有两个大类：xpath() 和 css() ，今天这篇文章主要讲解xpath如何解析我们想获取的页面数据。同时Scrapy还给我们提供自己的数据解析方法，即Selector(选择器)，Selector是一个可独立使用的模块，我们可以用Selector类来构建一个选择器对象，然后调用它的相关方法如xpaht(), css()等来提取数据，它的常用写...

为什么我用Scrapy爬不出数据？可能是你的html标签参数有问题

qq_25650651的博客

05-02

9917

什么？Scrapy爬数据失败了？本人萌新，刚入门Scrapy,照着网上的视频教学中的代码自己去古诗文网爬古诗的题目、作者、超链接，代码敲好了，结果在cmd命令行用>>scrapy crawl gushiwen这个命令发现爬不出数据，运行也没报错，检查了几遍代码发现没问题，究竟是哪里出问题了呢？一篇文章给了我提示，在这里文章说用firebug复制的xpath路径和用开发者工具复制的xpath路径有差异

使用Scrapy爬虫框架提取网页数据的实战教程

`parse`方法是Scrapy爬虫的主要入口点，当Scrapy获取到一个网页的响应时，它会调用这个方法。在这个示例中，我们使用了`response.xpath()`和`response.css()`方法来解析HTML文档。`response.xpath()`是基于XPath...