1、在故意输错密码的时候,不能只是在正确密码的前提下减少几个密码,而是应该增加几个不是密码的字符
2、在采集大量字段数据的时候,如何保证在处理这些字段时不出错,需要非常巨大的耐心来保证不出错。
2.1、其次更好的办法就是在 items 中预先定义好所有的字段名,然后再利用正则表达式来匹配字段,然后输出为 item["var"] 的形式,具体的代码因为较为简单,故就不贴出。
2.1.1、但该方法不好的地方可能会跟采集数据的过程产生差异,即无法使使用同一采集规则采集到的数据能够排列在一起,这一点对于后期维护的时候非常重要,否则将会产生巨大的维护成本。
2.1.2 当然也可以一边采集的时候一边写字段名,但这又会导致 2 的问题
故具体采取哪种方法更好,则需看大家的选择
3、在编写采集规则的时候,应当尽量多试几个规则,从而找到最好、最方便的规则
4、同样地在编写规则时,也应当多观察几个样本,从而在编写规则时能够增加规则的稳健性,一般的情况下都是使用异常处理来对每个进行处理,但是对于较多字段的情况下,会非常麻烦,也使得代码非常难看