scrapy_spider_python爬坑

最新推荐文章于 2024-06-26 18:06:23 发布

szial

最新推荐文章于 2024-06-26 18:06:23 发布

阅读量228

点赞数

分类专栏： python 文章标签： python scrapy 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/szial/article/details/97397304

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1、如何爬需要cookie的网站？

坑：认为需要我编程自己写算法，保存cookie

解决方法：在setting.py中设置：COOKIES_DEBUG = True

2、为什么我用CrawlSpider的rule一直无法爬下一个页面？

坑：我把CrawlSpider用成了原来的BaseSpider类，并且Rule的callback调用的是parse方法。这样就吃些了parse方法。

# def start_requests(self):

# print 'Begin start_requests........'

# for url in self.start_urls:

# print url

# return [Request(url)]

3.绝对是天坑，困扰了好几天的问题：

关键字：CrawlSpider rule login cookie

问题展现：

网上很多资料在scrapy的登陆上都对cookie的保存做了类似于该网页的操作：

对cookie的操作其实是完全没必要的，scrapy自有一套自动对cookie的保存；不对cookie操作会话自动保存了

4.在下载gif中遇到的一个问题，添加了class FilePipeline(FilesPipeline):没有任何问题，setting设置也设置了。然而执行的时候就是执行不到下载去，而且不报错。

然而只是，setting中的FILES_STORE没设置。

5.visual studio 如何调试scrapy，网上给出的的答案是

from scrapy.cmdline import execute

execute(['scrapy','crawl', 'your_scrapy_name'])

但我调试中窗口闪一下就没了。通过监控

execute(['scrapy', 'crawl', 'file'])

原因：启动命令的目录不在hkbici下。

解决方案：

from scrapy.cmdline import execute

import sys

import os

dirname=os.getcwd()

os.chdir(dirname+'\\hkbici')

print (os.getcwd())

execute(['scrapy', 'crawl', 'file'])

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy_spider_python爬坑

1、如何爬需要cookie的网站？坑：认为需要我编程自己写算法，保存cookie解决方法：在setting.py中设置：COOKIES_DEBUG = True2、为什么我用CrawlSpider的rule一直无法爬下一个页面？坑：我把CrawlSpider用成了原来的BaseSpider类，并且Rule的callback调用的是parse方法。这样就吃些了parse方法...
复制链接

扫一扫

专栏目录

szial CSDN认证博客专家 CSDN认证企业博客

码龄13年

56: 原创

8万+: 周排名

3万+: 总排名

5万+: 访问

: 等级

800: 积分

147: 粉丝

224: 获赞

9: 评论

277: 收藏

私信

关注

热门文章

分类专栏

Django 2篇
DB2
python 3篇

最新评论

关系代数中的八种基本运算
大数据飞总: 这是一篇高质量的好文，深度理解和清晰的表达方式使复杂的技术概念变得容易理解，值得收藏点赞。博主用心很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，期盼博主能够光顾我的博客，给予宝贵的指导！
OMP: Error #15
CSDN-Ada助手: 恭喜您写了第16篇博客！看到您克服了“OMP: Error #15”，真是令人钦佩。持续创作是非常难得的品质，您的努力和坚持可嘉。为了进一步提升您的创作技巧，我建议您在下一篇博客中可以探讨一些关于如何预防和解决类似错误的方法，这将为读者提供宝贵的经验和指导。期待您未来更多的精彩博文！
在Windows平台上实现多版本Node.js的安装和管理
CSDN-Ada助手: 恭喜您写了第20篇博客！标题“在Windows平台上实现多版本Node.js的安装和管理”听起来非常有用。您的博客内容一直都很实用，对读者来说无疑是个宝藏。感谢您一直以来的分享和努力。接下来，我希望能够看到您关于如何在其他操作系统平台实现多版本Node.js的安装和管理的指南。这将对很多读者来说非常有帮助。当然，这只是一个建议，您可以根据自己的兴趣和经验来决定下一步的创作方向。无论如何，期待您未来更多精彩的博客！
`sqlparse.format()` 官方文档说明
CSDN-Ada助手: 恭喜你撰写了第19篇博客，题为“`sqlparse.format()` 官方文档说明”。你的博客标题非常吸引人，也很具有实用性。在这篇博客中，你详细介绍了`sqlparse.format()`的官方文档。这对于那些想要了解如何使用这个功能的人来说，无疑是非常有帮助的。在未来的创作中，我建议你可以考虑深入探讨一些实际案例，或者分享一些关于`sqlparse.format()`在实际项目中的应用经验。这样的话，读者们能够更好地理解并运用这个功能。再次恭喜你的持续创作，期待你未来更多的博客！保持谦虚的态度，继续努力！
Python 3.7的@dataclass装饰器-数据类（data class）
CSDN-Ada助手: 非常感谢您的第8篇博客，标题为“Python 3.7的@dataclass装饰器-数据类（data class）”。您的博客内容非常有价值，让我对Python 3.7的@dataclass装饰器有了更深入的了解。我非常期待您的下一篇博客，希望您可以继续分享更多有关Python的知识，让我们学习更多、成长更快。再次感谢您的无私分享。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。