这是我第一次做几十万的数据爬取,大家别笑话我哈,新人一枚刚玩爬虫,就接到这么个活。
老板说:这个简单呀,我自己代码都会写,就是爬取太慢的。巴拉巴拉,,,,,
我还挺单纯的,1千不到我就接了这活。我寻思这网站也不难啊,直到现在我回想起来,真想说一句:r n m t q 。
首先我刚开始接到的问题就是界面的解析问题。可能你觉得,这个好像不是太要命,可是越到后面,我越发现,我去,这页面格式不太对啊,导致我写了好多的解析判断。
好不容易代码写完了,一开干,发现。哎呦我去,这数据什么情况,有的一条就有几十万的数据,我当时就懵逼了,心想:我要的这价也太低了,我真是个二百五....后来,老板各种找问题,凉凉了。
都写道这里了,给大家总结以下,让刚搞爬虫的新人们少踩点坑:
1价格过低不要接 ,不是卷不卷的问题,是这种的一般都是给的少,事还多的主,敬而远之吧
2如果要爬取上万的数据,最好谨慎接单。代理池就不说了,cookie池的成本才是高,而且有时候数据一旦获取不全,很容易被雇主找事情
3千万不要挺老板说这个简单,很好实现。等等诸如此类的话,千万别当真!如果这么简单,他自己就能做了,还用你干嘛。容易有雷!
4没有金刚钻也可以搞搞瓷器活。毕竟即便代码一堆bug,只要能运行,就完全ok 了。边学边做,也会提升一下自己。结局就是,程序和人,只要有一个能跑就行了