Project(1)阶段性总结

最新推荐文章于 2020-12-25 16:43:24 发布

会编程的漂亮小姐姐

最新推荐文章于 2020-12-25 16:43:24 发布

阅读量279

点赞数

分类专栏： Python 学习总结

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014229742/article/details/88353389

版权

Python 同时被 2 个专栏收录

171 篇文章 2 订阅

订阅专栏

115 篇文章 0 订阅

订阅专栏

从2月底出去过年的时间，一直在忙着一个补全数据的项目，从开始的对项目反感抵触（主要是觉得简单），但真正的经历过后，一路上受益匪浅，还是学到了很多的东西。

从该项目中主要学到以下：

1.不管做什么之前，先捋顺思路，第一步做什么，下一步做什么很关键。比如针对该项目，我觉得我应该这样去完成

将所有的数据按照一个标准去重，并给其一个规范的命名，最好这些命名有迹可循，不至于时间长了后，自己都不知道是什么
规划好项目该如何进行，如果可以并行进行的项目最好一起，不可以的话，就一个个的完成，这样思路也清晰。同时进行多个不相交的工作，真的很容易把自己搞晕。

2.由于此次爬取的网站自己觉得很简单，完全无视反爬，这3周吃了不少亏

被403,503虐惨了。大概花了一周就跑完了三个模块的数据，可以抽查的时候发现很多数据为空，最后排查了以下问题，我的妈啊，居然是被反爬了。型号这次项目时间充分，赶紧的改了代码，采用切换IP+设置超长超时时间，直到拿到数据为止。最后顺利的拿到数据，可是发现这200万数据里面还是有一两万被反爬了。思考了一下，数据拿取失败的主要原因还是时间设置过短。
这次爬取的一个模块由于速度过快，直接导致网站屏蔽了所有的用户！最后还是选择一个很偏的方法解决。可是该方法采用selenium，爬取的速度像蜗牛一样！最后，采用无界面+代理+多进程的方式提高了速度！想以前每天4万数据，采用多进程后，一天就可以跑完全部数据！
爬取的网站完成速度并不能用小样本来估算，随着爬取的数量的增大，面临被反爬的可能性也增大！以后遇到大规模的项目还是要理智估算一下完成时间！

3.爬取过程进行提前理好思路，写笔记也好，反正一次只做一件事，做好一件事。思路清晰，才是高效完成任务的关键。

会编程的漂亮小姐姐

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。