
网络爬虫
Q-WHai
O ever youthful,O ever weeping.
展开
-
网络爬虫:URL去重策略之布隆过滤器(BloomFilter)的使用
最近被网络爬虫中的去重策略所困扰。使用一些其他的“理想”的去重策略,不过在运行过程中总是会不太听话。不过当我发现了BloomFilter这个东西的时候,的确,这里是我目前找到的最靠谱的一种方法。原创 2015-08-25 22:45:19 · 26675 阅读 · 9 评论 -
网络爬虫初步:从一个入口链接开始不断抓取页面中的网址并入库
在这篇博客中,我主要是说明要做的两件事,一是入库,二是遍历拿到的链接继续访问。如此往复,这样就构成了一个网络爬虫的雏形。原创 2015-08-12 23:46:41 · 20967 阅读 · 3 评论 -
网络爬虫初步:从访问网页到数据解析
本篇文章在这里只是起一个抛砖引玉的作用。本文主要是讲解了如何使用Java/Python访问网页并获得网页代码、Python模仿浏览器进行访问网页和使用Python进行数据解析。希望我们以本文开始,一步一步解开网络蜘蛛神秘的一面。原创 2015-08-10 19:05:35 · 12167 阅读 · 0 评论 -
网络爬虫:采用“负载均衡”策略来优化网络爬虫
这里说的负载均衡并非大家熟悉的网络中的负载均衡。只是这里我使用了和负载均衡同样的一种思维来优化程序罢了,其实就是压力分摊。原创 2015-08-24 18:44:04 · 3017 阅读 · 0 评论 -
网络爬虫:基于对象持久化实现爬虫现场快速还原
在上篇中,我们说到可以使用布隆过滤器可以很好地实现URL的去重操作。可是,如果在某一个时刻我们不小心中止了爬虫的继续运行。这个时候要怎么办呢?原创 2015-11-27 15:53:02 · 2141 阅读 · 0 评论 -
网络爬虫:分离生产者和消费者来优化爬虫程序
基于前面的一些工作(可参见笔者前面的相关博客),我们取得了一些成果。不过存在的问题又总是会让人坐立不安。本文通过分离生产者、消费者以及引入连接池技术来优化爬虫程序。解决前面说到的数据库连接数过大、程序长时间运行OOM的情况。原创 2015-08-21 16:52:34 · 4781 阅读 · 0 评论 -
网络爬虫:使用多线程爬取网页链接
经过前面两篇文章,你想大家应该已经知道网络爬虫是怎么一回事了。这篇文章会在之前做过的事情上做一些改进,以及说明之前的做法的不足之处。原创 2015-08-17 18:59:47 · 12172 阅读 · 0 评论