爬虫进阶

爬虫写得多了,就感到有些乏。这个乏,指的并不是乏味,而是更广一些的,浑身使不上劲的SIW 乏。从务实的角度看,现有的答案已经回答地非常全面,无可指摘了。
相信大多数人的爬虫入门都和我类似,先从urllib2入手,写一个最简陋的get,面对一大堆源码无所 适从。
接着开始接触传说中给人用的requests ,惊呼『这简直是太棒了』。
在requests的学习中,我们知道了proxy ,知道了user-agent,知道了如何post。
随后,我们开始放下写的头疼的正则表达式(regex ),开始了解xpath , BeautifulSoup ,又是一阵 惊呼。
我们攻克了知乎(曽经),攻克了移动端的微博,却卡在了网页版的微博。于是我们知道了 selenium,用上了PhantomJS ,好嘛,现在浏览器能做的我都能做了。
渐渐地我们不满足于单线程的慢慢虫,于是我们开始写多线程。
渐渐地我们不满足于把数据放在csv文件中,于是我们开始用上mysql , mongodb , redis。
最终我们发现从头开始写4爬虫太不划算了,于是我们又捡起了一^始曽接触但随即放弃了的 scrapy。乖乖,现在我们才发现scrapy的速度那么快,效率那么高。我们不禁有些泄气。

转载于:https://www.cnblogs.com/wangshuyi/p/6737107.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值