16Python爬虫---Scrapy小结

最新推荐文章于 2024-06-24 18:32:35 发布

冰彡棒

最新推荐文章于 2024-06-24 18:32:35 发布

阅读量343

点赞数

分类专栏： python爬虫 Python

本文链接：https://blog.csdn.net/a877415861/article/details/79592394

版权

Python 同时被 2 个专栏收录

43 篇文章 2 订阅

订阅专栏

python爬虫

28 篇文章 0 订阅

订阅专栏

                    
                        
                    
                    1、我们可以通过scrapy startproject -h调出startproject的帮助信息，在这里可以看到scrapy startprojcct具体可以添加哪些参数。 
2、如果我们想要删除某个爬虫项目,我们可以直接删除该爬虫项日对应的文件夹即可方式。 
3、可以使用 genspider命令来创建 Scrap爬虫文件,这是一种快速创建爬虫文件的 
4、爬虫的测试比较麻烦,所以在在 Scrap中使用合同( contract)的方式对爬虫进行测试。 
5、通过 parse命令,我们可以实现获取指定的的URL网址,并使用对应的爬虫文件进行处理和分析。 
6、使用 Scrap中的tem对象可以保存爬取到的数据,相当于存储爬取到的数据的容器 
7、在 Scrap中,经常会使用 Xpath表达式进行数据的筛选和提取。 
8、我们经常使用 Xmlfeedspider去处理RSS订阅信息。RSS是一种信息聚合技术,可以让信息的发布和共享更为高效、便捷。同样,RSS是基于XML标准的。 
9、在 Scrap项目中,我们主要可以通过以下方法来避免被禁止:禁止 Cookie、设置下载延时、使用用P池、使用用户代理池或其他方法。