python与spider的区别_python – Scraw spider与Scraped items之间的区别

曲水流觞不醉人

于 2021-02-20 03:58:29 发布

阅读量280

点赞数

文章标签： python与spider的区别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35853083/article/details/114408937

版权

我正在编写一个Scrapy CrawlSpider,它在第一页上读取AD列表,获取一些信息,如列表和AD网址,然后向每个AD网址发出请求以获取其详细信息.

它在测试环境中工作和分页显然很好,但今天试图完成一次运行我意识到在日志中：

抓取3852页(228页/分),刮掉256件(每件15件)

我不理解抓取页面和Scraped项目之间存在巨大差异的原因.任何人都可以帮助我意识到这些物品丢失的地方？

我的蜘蛛代码：

class MySpider(CrawlSpider):

name = "myspider"

allowed_domains = ["myspider.com", "myspider.co"]

start_urls = [

"http://www.myspider.com/offers/myCity/typeOfAd/?search=fast",

]

#Pagination

rules = (

Rule (

SgmlLinkExtractor()

, callback='parse_start_url', follow= True),

)

#1st page

def parse_start_url(self, response):

hxs = HtmlXPathSelector(response)

next_page = hxs.select("//a[@class='pagNext']/@href").extract()

offers = hxs.select("//div[@class='hlist']")

for offer in offers:

myItem = myItem()

myItem['url'] = offer.select('.//span[@class="location"]/a/@href').extract()[0]

myItem['thumb'] = oferta.select('.//div[@class="itemFoto"]/div/a/img/@src').extract()[0]

request = Request(myItem['url'], callback = self.second_page)

request.meta['myItem'] = myItem

yield request

if next_page:

yield Request(next_page[0], callback=self.parse_start_url)

def second_page(self,response):

myItem = response.meta['myItem']

loader = myItemLoader(item=myItem, response=response)

loader.add_xpath('address', '//span[@itemprop="streetAddress"]/text()')

return loader.load_item()

曲水流觞不醉人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python与spider的区别_python – Scraw spider与Scraped items之间的区别

我正在编写一个Scrapy CrawlSpider,它在第一页上读取AD列表,获取一些信息,如列表和AD网址,然后向每个AD网址发出请求以获取其详细信息.它在测试环境中工作和分页显然很好,但今天试图完成一次运行我意识到在日志中：抓取3852页(228页/分),刮掉256件(每件15件)我不理解抓取页面和Scraped项目之间存在巨大差异的原因.任何人都可以帮助我意识到这些物品丢失的地方？我的蜘蛛代...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。