python使用xpath提取a标签中的img数据_使用xPath提取嵌套的“img src”

最新推荐文章于 2023-10-05 15:29:18 发布

weixin_39533361

最新推荐文章于 2023-10-05 15:29:18 发布

阅读量3.2k

点赞数

文章标签： python使用xpath提取a标签中的img数据

我对使用Scrapy或python来处理这个问题还比较陌生。我希望从几个不同的链接中提取，我在使用HTMLXPathSelector表达式(语法)时遇到问题。我查看了大量的文档以了解正确的语法，但是还没有找到解决方案。在

下面是一个我试图从中提取“img src”的链接示例：from scrapy.spider import BaseSpider

from scrapy.selector import HtmlXPathSelector

class GeekSpider(BaseSpider):

name = "geekS"

allowed_domains = ["geek.com"]

start_urls = ["http://www.geek.com/articles/gadgets/kindle-fire-hd-8-9-on-sale-for-50-off-today-only-20121210/"]

def parse(self, response):

hxs = HtmlXPathSelector(response)

imgurl = hxs.select("//div[@class='article']//a/img/@src").extract()

return imgurl

我想我已经找到了x.select语句的语法，但是，由于我不熟悉这种语法/方法，所以我不太确定。在

这是我的项目.py文件中，基本上遵循了scrapy教程：

^{pr2}$

为了澄清：我要做的是提取页面上的img src url。我不需要提取所有的图像src，我已经知道(容易得多)。在

我只是想缩小范围，只提取img src的特定url。(我将在这个网站的多个页面上使用它)

非常感谢您的帮助！

编辑更新的代码我在geek=geek()中遇到了一些语法错误，所以我稍微修改了一下，希望它更易于理解和运行

weixin_39533361

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python使用xpath提取a标签中的img数据_使用xPath提取嵌套的“img src”

我对使用Scrapy或python来处理这个问题还比较陌生。我希望从几个不同的链接中提取，我在使用HTMLXPathSelector表达式(语法)时遇到问题。我查看了大量的文档以了解正确的语法，但是还没有找到解决方案。在下面是一个我试图从中提取“img src”的链接示例：from scrapy.spider import BaseSpiderfrom scrapy.selector import...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。