python网络爬虫权威指南 豆瓣_《Python网络爬虫权威指南第2版》相关学习资料和经验...

相信大多数人的爬虫入门都和我类似,先从urllib2 入手,写一个最简陋的get,面对一大堆源码无所适从。

接着开始接触传说中给人用的requests,惊呼『这简直是太棒了』。在requests

的学习中,我们知道了proxy,知道了user-agent,知道了如何post。随后,我们开始放下写的头疼的正则表达式(regex),开始了解xpath,BeautifulSoup,又是一阵惊呼。我们攻克了知乎(曾经),攻克了移动端的微博,却卡在了网页版的微博。于是我们知道了selenium,

用上了PhantomJS,好嘛,现在浏览器能做的我都能做了。渐渐地我们不满足于单线程的慢慢虫,于是我们开始写多线程。渐渐地我们不满足于把数据放在csv文件中,于是我们开始用上mysql,mongodb,redis。

最终我们发现从头开始写一个爬虫太不划算了,于是我们又捡起了一开始曾接触但随即放弃了的scrapy。乖乖,现在我们才发现scrapy的速度那么快,效率那么高。我们不禁有些泄气。

我们明白,先有数据,后有爬虫。所有的爬虫都只能收集数据,分析数据,而不能直接产生数据。是的,即使是那些分析的结果,也必须建立在原始的数据之上。这里我们不讨论涉及黑产的爬虫(即搜集到的数据本身就可以卖钱)。除去这一类,爬虫最有价值的一环,正是数据的分析结果。因为爬虫能拿到的所有数据都是公开的,免费的,所以唯有将这些数据清洗,重塑,并分析之后,你才能得到全新的,属于你自己的信息。可是,要如何分析收集到的数据呢?你会发现,光是凭借计算机的知识,是无法做到深入分析这一点的。你能做的,无非是求求和,求求均值方差,画画统计图表,描描趋势图。分析结果的呈现方式有很多,有些显得很low,有些显得很高大上。但本质上它们没有太大区别,它们的价值是很有限的。更好一些的分析手段还有机器学习,也许你可以做一个推荐系统,或是做一个聚类分析。可是从根本上来说,想要最大程度地利用通过爬虫获得的数据,需要的首先是强大的数学基础,其次是数据来源相关学科的学科背景,比如搜集的是经济数据,那么就要求你有很强的经济学功底和很好的市场嗅觉,而这已经完全脱离了爬虫的范围。

对于大多数像我一样的票友来讲,我们写爬虫追求的并不是效率,也不是规模,甚至不是数据本身。我们追求的,是万千数据中提炼出有价值的那一部分,并把那一部分为自己所用。因此,如果你的志向不是成为一名爬虫工程师的话,我对于爬虫进阶的建议,从务虚的角度讲,应该是修炼好自己本学科的内功。爬虫是手段而非目的,或许明白了这一点,你的爬虫就能更进一步了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值