scrapy框架爬虫文件编写问题

cin__cout__

已于 2024-07-16 16:45:49 修改

阅读量742

点赞数 4

文章标签： scrapy 爬虫

于 2024-07-16 15:54:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_51032573/article/details/140468735

版权

这段代码有啥问题嘛，为啥出来的item不对，有大佬解答下嘛。

import scrapy
from testscrapy1.items import *

class Testcrapy1Spider(scrapy.Spider):
name = "testcrapy1"
#allowed_domains = ["ssr1.scrape.center"]
start_urls = ["https://ssr1.scrape.center/"]
item = Testscrapy1Item()
number = 1

def parse(self, response):
i_list = response.css('.el-card__body')
#j_list = response.xpath('//div[@class="el-card__body"]/div/div[1]/a/@href')
for i in range(0,10) :
self.item['name'] = i_list[i].css('.m-b-sm ::text').extract_first()
self.item['caro'] = '/'.join(i_list[i].css('.categories span ::text').extract())
self.item['info'] = '/'.join(i_list[i].css('.m-v-sm span ::text').extract())
yield scrapy.Request(f'https://ssr1.scrape.center/detail/{self.number}', self.parse_detail)
self.number += 1
nextpage = response.xpath('//a[@class="next"]/@href').extract_first()
if nextpage:
yield scrapy.Request(f'https://ssr1.scrape.center{nextpage}', self.parse)
def parse_detail(self, response):
item = self.item
item['story'] = ''.join(response.css('.drama p ::text').extract()).strip()
item['actor'] = ''
for i in response.xpath('//div[@class="actor el-col el-col-4"]'):
item['actor'] += ''.join(i.css('p ::text').extract())+'||'
image_list = response.xpath('//div[@class="el-image"]/img/@src').extract()
if image_list.__len__() < 10:
item['image_urls'] = image_list
else:
item['image_urls'] = image_list[:11]
yield item

解决了，是item必须要deepcopy的问题。

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
scrapy框架爬虫文件编写问题

这段代码有啥问题嘛，为啥出来的item不对，有大佬解答下嘛。
复制链接

扫一扫

cin__cout__ CSDN认证博客专家 CSDN认证企业博客

码龄4年

5: 原创

168万+: 周排名

15万+: 总排名

1676: 访问

: 等级

76: 积分

22: 粉丝

19: 获赞

5: 评论

30: 收藏

私信

关注

热门文章

最新评论

关于labview for ni安装驱动报inf段落无效
CSDN-Ada助手: 恭喜您写下了第三篇博客！标题“关于labview for ni安装驱动报inf段落无效”听起来非常有技术含量。在这篇博客中，您分享了在安装驱动时遇到的问题，并指出了inf段落无效的情况。这对于那些使用labview for ni的人来说，无疑是非常有帮助的。接下来，我想建议您在下一篇博客中深入探讨解决这个问题的方法。您可以先介绍一下什么是inf段落无效，然后提供一些可行的解决方案，或者分享一些您自己的经验教训。这样不仅可以帮助那些遇到相同问题的读者解决困惑，也能够提升您自己在这个领域的专业声誉。再次恭喜您的连续创作，期待您在下一篇博客中的精彩发表！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
就这个编程问题，我想了一天，求解答呀
cin__cout__: 好吧又遇到麻烦了
很奇怪的点
CSDN-Ada助手: 非常棒的博客！你的探索精神和解决问题的能力令人钦佩。继续保持创作，我期待看到更多你的博文。关于fstream库的使用，除了路径问题外，还有一些其他可能的原因导致创建文件失败或无法读取文件内容。你可以尝试检查文件权限是否正确设置，以及确保文件是否存在。另外，你可以了解一下文件打开模式（如ios::in、ios::out等）的使用，它们可能会对文件的读写操作产生影响。此外，你还可以探索一些与文件相关的其他知识和技能，比如文件流的格式化输出、二进制文件的读写、文件的复制和移动等。这些扩展知识和技能将帮助你更好地理解和应用fstream库。再次感谢你的分享，期待你的下一篇博文！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
就这个编程问题，我想了一天，求解答呀
CSDN-Ada助手: 恭喜你开始博客创作！对于这个编程问题，思考一整天确实需要耐心和毅力。在你的博客中，你可以先回顾你当时遇到的问题，并分享你思考问题的过程，这会让读者更好地了解你的思路。接下来，你可以尝试提出自己的解决方案，并解释你为什么选择这个方案。同时，也可以寻求读者的意见和建议，这样可以促进更多的交流和学习。期待看到你的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
就这个编程问题，我想了一天，求解答呀
cin__cout__: 看来还是要转换下心情呀，压力太大越着急越想不清楚

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。