Project(1)阶段性总结

从2月底出去过年的时间,一直在忙着一个补全数据的项目,从开始的对项目反感抵触(主要是觉得简单),但真正的经历过后,一路上受益匪浅,还是学到了很多的东西。

从该项目中主要学到以下:

1.不管做什么之前,先捋顺思路,第一步做什么,下一步做什么很关键。比如针对该项目,我觉得我应该这样去完成
  • 将所有的数据按照一个标准去重,并给其一个规范的命名,最好这些命名有迹可循,不至于时间长了后,自己都不知道是什么

  • 规划好项目该如何进行,如果可以并行进行的项目最好一起,不可以的话,就一个个的完成,这样思路也清晰。同时进行多个不相交的工作,真的很容易把自己搞晕。

2.由于此次爬取的网站自己觉得很简单,完全无视反爬,这3周吃了不少亏
  • 被403,503虐惨了。大概花了一周就跑完了三个模块的数据,可以抽查的时候发现很多数据为空,最后排查了以下问题,我的妈啊,居然是被反爬了。型号这次项目时间充分,赶紧的改了代码,采用切换IP+设置超长超时时间,直到拿到数据为止。最后顺利的拿到数据,可是发现这200万数据里面还是有一两万被反爬了。思考了一下,数据拿取失败的主要原因还是时间设置过短。
  • 这次爬取的一个模块由于速度过快,直接导致网站屏蔽了所有的用户!最后还是选择一个很偏的方法解决。可是该方法采用selenium,爬取的速度像蜗牛一样!最后,采用无界面+代理+多进程的方式提高了速度!想以前每天4万数据,采用多进程后,一天就可以跑完全部数据!
  • 爬取的网站完成速度并不能用小样本来估算,随着爬取的数量的增大,面临被反爬的可能性也增大!以后遇到大规模的项目还是要理智估算一下完成时间!
3.爬取过程进行提前理好思路,写笔记也好,反正一次只做一件事,做好一件事。思路清晰,才是高效完成任务的关键。

没有更多推荐了,返回首页