1、如何爬需要cookie的网站?
坑:认为需要我编程自己写算法,保存cookie
解决方法:在setting.py中设置:COOKIES_DEBUG = True
2、为什么我用CrawlSpider的rule一直无法爬下一个页面?
坑:我把CrawlSpider用成了原来的BaseSpider类,并且Rule的callback调用的是parse方法。这样就吃些了parse方法。
# def start_requests(self):
# print 'Begin start_requests........'
# for url in self.start_urls:
# print url
# return [Request(url)]
3.绝对是天坑,困扰了好几天的问题:
关键字:CrawlSpider rule login cookie
问题展现:
网上很多资料在scrapy的登陆上都对cookie的保存做了类似于该网页的操作:
对cookie的操作其实是完全没必要的,scrapy自有一套自动对cookie的保存;不对cookie操作会话自动保存了
4.在下载gif中遇到的一个问题,添加了class FilePipeline(FilesPipeline):没有任何问题,setting设置也设置了。然而执行的时候就是执行不到下载去,而且不报错。
然而只是,setting中的FILES_STORE没设置。
5.visual studio 如何调试scrapy,网上给出的的答案是
from scrapy.cmdline import execute
execute(['scrapy','crawl', 'your_scrapy_name'])
但我调试中窗口闪一下就没了。通过监控
execute(['scrapy', 'crawl', 'file'])
原因:启动命令的目录不在hkbici下。
解决方案:
from scrapy.cmdline import execute
import sys
import os
dirname=os.getcwd()
os.chdir(dirname+'\\hkbici')
print (os.getcwd())
execute(['scrapy', 'crawl', 'file'])