第一次做几十万的数据爬取,我踩了哪些坑

这是我第一次做几十万的数据爬取,大家别笑话我哈,新人一枚刚玩爬虫,就接到这么个活。

老板说:这个简单呀,我自己代码都会写,就是爬取太慢的。巴拉巴拉,,,,,

我还挺单纯的,1千不到我就接了这活。我寻思这网站也不难啊,直到现在我回想起来,真想说一句:r n m t q 。

首先我刚开始接到的问题就是界面的解析问题。可能你觉得,这个好像不是太要命,可是越到后面,我越发现,我去,这页面格式不太对啊,导致我写了好多的解析判断。

好不容易代码写完了,一开干,发现。哎呦我去,这数据什么情况,有的一条就有几十万的数据,我当时就懵逼了,心想:我要的这价也太低了,我真是个二百五....后来,老板各种找问题,凉凉了。

都写道这里了,给大家总结以下,让刚搞爬虫的新人们少踩点坑:

1价格过低不要接 ,不是卷不卷的问题,是这种的一般都是给的少,事还多的主,敬而远之吧

2如果要爬取上万的数据,最好谨慎接单。代理池就不说了,cookie池的成本才是高,而且有时候数据一旦获取不全,很容易被雇主找事情

3千万不要挺老板说这个简单,很好实现。等等诸如此类的话,千万别当真!如果这么简单,他自己就能做了,还用你干嘛。容易有雷!

4没有金刚钻也可以搞搞瓷器活。毕竟即便代码一堆bug,只要能运行,就完全ok 了。边学边做,也会提升一下自己。结局就是,程序和人,只要有一个能跑就行了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

干瘪的兔子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值