python extract方法_在多个项目类中使用extract方法

最新推荐文章于 2023-12-03 15:49:19 发布

乐干面

最新推荐文章于 2023-12-03 15:49:19 发布

阅读量1.2k

点赞数

文章标签： python extract方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33384949/article/details/113961478

版权

我不是一个有经验的程序员，不要生我的气…

我正在探索一些小的可能性(我有一些Python编程技巧)。在

废弃一个网站：让我们想象一下，我们可以从opengraph(og:)中提取一些信息，比如“title”、“url”和“description”，以及来自的其他信息架构.org，比如“作者”，最后我们想要“标题”，“url”，“description”和“date”，它们可以从HTML的“normal”XPath中提取出来，前提是opengraph(og:)中没有架构.org。在

我在分开的.py文件中创建了3个item类OpengraphItem(item)、SchemaItem(item)和MyItem(item)。

在每个类中都会有一个extract函数来提取字段，如下例所示：class OpengraphItem(Item):

title = Field()

url = Field()

description = Field()

def extract(self, hxs):

self.title = hxs.xpath('/html/head/meta[@property="og:title"]/@content').extract()

self.url = hxs.xpath('/html/head/meta[@property="og:url"]/@content').extract()

self.description = hxs.xpath('/html/head/meta[@property="og:description"]/@content').extract()

然后在spider code中，extract函数将如下调用：

^{pr2}$

这有道理吗？

在items类中创建extract方法是正确的吗？在

Scrapy item extraction scope issue和{a3}-我应该有一个Itempipeline吗？我不熟悉这些，但在垃圾文件说它的用途，我认为它不适合这个问题。还有物品装载机？在

我删掉了部分代码。在

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python extract方法_在多个项目类中使用extract方法

我不是一个有经验的程序员，不要生我的气…我正在探索一些小的可能性(我有一些Python编程技巧)。在废弃一个网站：让我们想象一下，我们可以从opengraph(og:)中提取一些信息，比如“title”、“url”和“description”，以及来自的其他信息架构.org，比如“作者”，最后我们想要“标题”，“url”，“description”和“date”，它们可以从HTML的“normal...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。