1、我们可以通过scrapy startproject -h调出startproject的帮助信息,在这里可以看到scrapy startprojcct具体可以添加哪些参数。 2、如果我们想要删除某个爬虫项目,我们可以直接删除该爬虫项日对应的文件夹即可方式。 3、可以使用 genspider命令来创建 Scrap爬虫文件,这是一种快速创建爬虫文件的 4、爬虫的测试比较麻烦,所以在在 Scrap中使用合同( contract)的方式对爬虫进行测试。 5、通过 parse命令,我们可以实现获取指定的的URL网址,并使用对应的爬虫文件进行处理和分析。 6、使用 Scrap中的tem对象可以保存爬取到的数据,相当于存储爬取到的数据的容器 7、在 Scrap中,经常会使用 Xpath表达式进行数据的筛选和提取。 8、我们经常使用 Xmlfeedspider去处理RSS订阅信息。RSS是一种信息聚合技术,可以让信息的发布和共享更为高效、便捷。同样,RSS是基于XML标准的。 9、在 Scrap项目中,我们主要可以通过以下方法来避免被禁止:禁止 Cookie、设置下载延时、使用用P池、使用用户代理池或其他方法。