喜欢编程,热爱分享,希望能结交更多志同道合的朋友,一起在学习Python的道路上走得更远!
首先我们要清楚一件事:没有什么知识是无用的,要么是你没有学好,要么是你不会用或者暂时用不到。
每个人的时间是有限的,你的编程学得好,但是你唱歌跳舞也很好,总不可能白天当爱豆和蔡徐坤一起参加活动,晚上回公司做项目吧?肯定只能选一个作为你主要的工作,另一个就只能成为业余爱好。
爬虫绝不是表面的 用requests、urllib,发个http请求那么简单,现实中你要抓人家的数据, 会有很多门槛:
1.人家检测出你是爬虫,拉黑你IP (人家究竟是通过你的ua、行为特则 还是别的检测出你是爬虫的?你怎么规避?)
2.人家给你返回脏数据,你怎么辨认?
3.对方被你爬死,你怎么设计调度规则?
4.要求你一天爬完10000w数据,你一台机器带宽有限,你如何用分布式的方式来提高效率?
5.数据爬回来,要不要清洗?对方的脏数据会不会把原有的数据弄脏?
6.对方的部分数据没有更新,这些未更新的你也要重新下载吗?怎么识别?怎么优化你的规则?
7.数据太多,一个数据