16Python爬虫---Scrapy小结

1、我们可以通过scrapy startproject -h调出startproject的帮助信息,在这里可以看到scrapy startprojcct具体可以添加哪些参数。
2、如果我们想要删除某个爬虫项目,我们可以直接删除该爬虫项日对应的文件夹即可方式。
3、可以使用 genspider命令来创建 Scrap爬虫文件,这是一种快速创建爬虫文件的
4、爬虫的测试比较麻烦,所以在在 Scrap中使用合同( contract)的方式对爬虫进行测试。
5、通过 parse命令,我们可以实现获取指定的的URL网址,并使用对应的爬虫文件进行处理和分析。
6、使用 Scrap中的tem对象可以保存爬取到的数据,相当于存储爬取到的数据的容器
7、在 Scrap中,经常会使用 Xpath表达式进行数据的筛选和提取。
8、我们经常使用 Xmlfeedspider去处理RSS订阅信息。RSS是一种信息聚合技术,可以让信息的发布和共享更为高效、便捷。同样,RSS是基于XML标准的。
9、在 Scrap项目中,我们主要可以通过以下方法来避免被禁止:禁止 Cookie、设置下载延时、使用用P池、使用用户代理池或其他方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值