数量级:100万个html页面 1.前期,凡是自己不能判断的多去捕获异常,有些不起眼的地方也报错。 2.前期确定好量级, 做好爬虫应各种原因中断的防护措施,减少一个页面多次爬取的现象 3.前期可以用手动多进程进行调试(看看账号是不是有问题),稳定后再转多线程 4.程序开发的废话:高内聚,低耦合,先想明白再写,废话确实很重要