A web crawler, written for speed, in JAVA and Clojure » A programmer's site

最新推荐文章于 2024-07-12 16:26:30 发布

a13393665983

最新推荐文章于 2024-07-12 16:26:30 发布

阅读量75

点赞数

文章标签： java 运维网络

原文链接：http://www.cnblogs.com/lexus/archive/2013/01/26/2878046.html

版权

A web crawler, written for speed, in JAVA and Clojure » A programmer's site

A web crawler, written for speed, in JAVA and Clojure

十一长假就快要过去了，写的web crawler也告一段落：速度能达到大概下载8万网页/小时， CPU和Mem的使用都比较满意：运行40分钟的截图：

CPU， Mem使用

网络使用（4M带宽，已极限）

按status的分布

Crawler是Rss miner的一部分， git log查看，已零星5个月，这5个月的周末都耗在上面了，其中大部分在crawler上，数次大的重构或重写。

Crawer主要以Clojure和Java完成。 Clojure可以把程序写得很简洁，利用Java可以很好的组织多线程，面向对象 + functional，感觉很不错。

开始，我用Clojure了封装JDK 的 URLConnection, 由于Blocking，为了加快速度，需要使用多线程。

有一些问题，例如：

线程少速度慢，线程多了内存受不了，我对内存较敏感，有一部分是想挑战自己，也有一部分是因为我的VPS只有512M内存，想在上面跑Rss miner, 包括一个Web server，一个Rss fetcher, 一个Web Crawler, 一个Online的实时推荐算法，筹划中….
URLConnection以Stream封装, 不是很方便。
如果各个线程分别自己保存自己下载的数据， Disk可能比较辛苦。如果用Queue送给单独的一个线程处理，又有一个额外的线程开销。

我寻找 Non-blocking的Http Client，试用了两个，都不太满意，自己写了一个，注重性能和稳定性。

实现：

4个线程，每个线程都是一个Loop，相互之间是Producer， Consumer的关系，通过Queue和Event交流
管理状态比较多的，用Java实现，比如用Tagsoup抽取链接和文本，通过规则排除部分URL
DNS prefetch, Pdnsd做DNS cache： UDP提前发送Query请求，忽略结果。
Java搭了一个简单的框架，提供两个Interface, 由Clojure实现
public interface IHttpTask {
    URI getUri();
    Map<String, Object> getHeaders();
    Object doTask(HttpResponse response) throws Exception;
    Proxy getProxy();
}
public interface IHttpTaskProvder {
    List<IHttpTask> getTasks();
}

posted on 2013-01-26 18:24 lexus 阅读( ...) 评论( ...) 编辑收藏

转载于:https://www.cnblogs.com/lexus/archive/2013/01/26/2878046.html

a13393665983

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
A web crawler, written for speed, in JAVA and Clojure » A programmer's site

A web crawler, written for speed, in JAVA and Clojure » A programmer's site A web crawler, written for speed, in JAVA and Clojure » A...
复制链接

扫一扫