『Scrapy』登录人人贷并抓取借贷人信息中遇到的坑

1、在故意输错密码的时候,不能只是在正确密码的前提下减少几个密码,而是应该增加几个不是密码的字符

2、在采集大量字段数据的时候,如何保证在处理这些字段时不出错,需要非常巨大的耐心来保证不出错。

2.1、其次更好的办法就是在 items 中预先定义好所有的字段名,然后再利用正则表达式来匹配字段,然后输出为 item["var"] 的形式,具体的代码因为较为简单,故就不贴出。 

2.1.1、但该方法不好的地方可能会跟采集数据的过程产生差异,即无法使使用同一采集规则采集到的数据能够排列在一起,这一点对于后期维护的时候非常重要,否则将会产生巨大的维护成本。

2.1.2 当然也可以一边采集的时候一边写字段名,但这又会导致 2 的问题

故具体采取哪种方法更好,则需看大家的选择

3、在编写采集规则的时候,应当尽量多试几个规则,从而找到最好、最方便的规则

4、同样地在编写规则时,也应当多观察几个样本,从而在编写规则时能够增加规则的稳健性,一般的情况下都是使用异常处理来对每个进行处理,但是对于较多字段的情况下,会非常麻烦,也使得代码非常难看

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值