【Scrapy】确认xpath没问题但是爬取不到数据

最新推荐文章于 2024-05-11 22:22:23 发布

tricarboxylic

最新推荐文章于 2024-05-11 22:22:23 发布

阅读量932

点赞数 3

文章标签： scrapy

本文链接：https://blog.csdn.net/qq_51527550/article/details/134548883

版权

如题，爬取爱彼迎首页时，返回的数据为空，即返回[]

    def parse(self, response):
        # self.logger.debug(response.body)
        print(type(response))
        print("===============")
        div_list = response.xpath('//main[@id="site-content"]//div[@class="gsgwcjk g14v8520 dir dir-ltr"]/div')
        # name = response.xpath('//div[@class="gsgwcjk g14v8520 dir dir-ltr"]/div[@class=" dir dir-ltr"]//div[@class="t1jojoys dir dir-ltr"]')
        print(div_list)

确认了xpath是没问题的，在浏览器输入相应的xpath是可以获取到想要的元素的：
爱彼迎首页
“print(”===============")"能执行，说明没有反爬，但是却没有获取到想要的div
可以看到返回了一个[]
也检查了没有遵守“君子协议”
在这里插入图片描述

**原因：**如果目标网站使用JavaScript来渲染页面内容，Scrapy默认情况下可能无法获取到动态生成的内容。
**验证：**在浏览器禁用JavaScript，观察页面是否会发生变化。方法：（以Edge浏览器示范）在浏览器中点开设置，搜索“站点权限”，找到“JavaScript"，然后点进去，将”允许“的开关关掉。
在这里插入图片描述

禁用JavaScript之后，拿之前能爬取成功的当当网检验，可以看到禁用之后，还是可以看到图书信息的。但是爱彼迎的话就会显示不出房源信息，说明了爱彼迎的页面用了JavaScript渲染。所以才会爬取不到。

在这里插入图片描述
**解决：**可以用selenium进行爬取，笔者还没有试验过，待更新。

tricarboxylic

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
【Scrapy】确认xpath没问题但是爬取不到数据

方法：（以Edge浏览器示范）在浏览器中点开设置，搜索“站点权限”，找到“JavaScript"，然后点进去，将”允许“的开关关掉。禁用JavaScript之后，拿之前能爬取成功的当当网检验，可以看到禁用之后，还是可以看到图书信息的。**原因：**如果目标网站使用JavaScript来渲染页面内容，Scrapy默认情况下可能无法获取到动态生成的内容。“print(”===============")"能执行，说明没有反爬，但是却没有获取到想要的div。如题，爬取爱彼迎首页时，返回的数据为空，即返回[]
复制链接

扫一扫