python extract方法_在多个项目类中使用extract方法

我不是一个有经验的程序员,不要生我的气…

我正在探索一些小的可能性(我有一些Python编程技巧)。在

废弃一个网站:让我们想象一下,我们可以从opengraph(og:)中提取一些信息,比如“title”、“url”和“description”,以及来自的其他信息架构.org,比如“作者”,最后我们想要“标题”,“url”,“description”和“date”,它们可以从HTML的“normal”XPath中提取出来,前提是opengraph(og:)中没有架构.org。在

我在分开的.py文件中创建了3个item类OpengraphItem(item)、SchemaItem(item)和MyItem(item)。

在每个类中都会有一个extract函数来提取字段,如下例所示:class OpengraphItem(Item):

title = Field()

url = Field()

description = Field()

def extract(self, hxs):

self.title = hxs.xpath('/html/head/meta[@property="og:title"]/@content').extract()

self.url = hxs.xpath('/html/head/meta[@property="og:url"]/@content').extract()

self.description = hxs.xpath('/html/head/meta[@property="og:description"]/@content').extract()

然后在spider code中,extract函数将如下调用:

^{pr2}$

这有道理吗?

在items类中创建extract方法是正确的吗?在

Scrapy item extraction scope issue和{a3}-我应该有一个Itempipeline吗?我不熟悉这些,但在垃圾文件说它的用途,我认为它不适合这个问题。还有物品装载机?在

我删掉了部分代码。在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值