python网络爬虫权威指南豆瓣_《Python网络爬虫权威指南第2版》相关学习资料和经验...

最新推荐文章于 2021-02-04 04:18:30 发布

weixin_39855568

最新推荐文章于 2021-02-04 04:18:30 发布

阅读量78

点赞数

文章标签： python网络爬虫权威指南豆瓣

相信大多数人的爬虫入门都和我类似，先从urllib2 入手，写一个最简陋的get，面对一大堆源码无所适从。

接着开始接触传说中给人用的requests，惊呼『这简直是太棒了』。在requests

的学习中，我们知道了proxy，知道了user-agent，知道了如何post。随后，我们开始放下写的头疼的正则表达式（regex），开始了解xpath，BeautifulSoup，又是一阵惊呼。我们攻克了知乎（曾经），攻克了移动端的微博，却卡在了网页版的微博。于是我们知道了selenium,

用上了PhantomJS，好嘛，现在浏览器能做的我都能做了。渐渐地我们不满足于单线程的慢慢虫，于是我们开始写多线程。渐渐地我们不满足于把数据放在csv文件中，于是我们开始用上mysql，mongodb，redis。

最终我们发现从头开始写一个爬虫太不划算了，于是我们又捡起了一开始曾接触但随即放弃了的scrapy。乖乖，现在我们才发现scrapy的速度那么快，效率那么高。我们不禁有些泄气。

我们明白，先有数据，后有爬虫。所有的爬虫都只能收集数据，分析数据，而不能直接产生数据。是的，即使是那些分析的结果，也必须建立在原始的数据之上。这里我们不讨论涉及黑产的爬虫（即搜集到的数据本身就可以卖钱）。除去这一类，爬虫最有价值的一环，正是数据的分析结果。因为爬虫能拿到的所有数据都是公开的，免费的，所以唯有将这些数据清洗，重塑，并分析之后，你才能得到全新的，属于你自己的信息。可是，要如何分析收集到的数据呢？你会发现，光是凭借计算机的知识，是无法做到深入分析这一点的。你能做的，无非是求求和，求求均值方差，画画统计图表，描描趋势图。分析结果的呈现方式有很多，有些显得很low，有些显得很高大上。但本质上它们没有太大区别，它们的价值是很有限的。更好一些的分析手段还有机器学习，也许你可以做一个推荐系统，或是做一个聚类分析。可是从根本上来说，想要最大程度地利用通过爬虫获得的数据，需要的首先是强大的数学基础，其次是数据来源相关学科的学科背景，比如搜集的是经济数据，那么就要求你有很强的经济学功底和很好的市场嗅觉，而这已经完全脱离了爬虫的范围。

对于大多数像我一样的票友来讲，我们写爬虫追求的并不是效率，也不是规模，甚至不是数据本身。我们追求的，是万千数据中提炼出有价值的那一部分，并把那一部分为自己所用。因此，如果你的志向不是成为一名爬虫工程师的话，我对于爬虫进阶的建议，从务虚的角度讲，应该是修炼好自己本学科的内功。爬虫是手段而非目的，或许明白了这一点，你的爬虫就能更进一步了。

weixin_39855568

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python网络爬虫权威指南豆瓣_《Python网络爬虫权威指南第2版》相关学习资料和经验...

相信大多数人的爬虫入门都和我类似，先从urllib2 入手，写一个最简陋的get，面对一大堆源码无所适从。接着开始接触传说中给人用的requests，惊呼『这简直是太棒了』。在requests的学习中，我们知道了proxy，知道了user-agent，知道了如何post。随后，我们开始放下写的头疼的正则表达式（regex），开始了解xpath，BeautifulSoup，又是一阵惊呼。我们攻克了知...
复制链接

扫一扫