A web crawler, written for speed, in JAVA and Clojure » A programmer's site

A web crawler, written for speed, in JAVA and Clojure » A programmer's site

A web crawler, written for speed, in JAVA and Clojure

十一长假就快要过去了, 写的web crawler也告一段落: 速度能达到大概下载8万网页/小时, CPU和Mem的使用都比较满意: 运行40分钟的截图:

image

CPU, Mem使用

image

网络使用(4M带宽,已极限)

image

按status的分布

Crawler是Rss miner的一部分, git log查看, 已零星5个月, 这5个月的周末都耗在上面了, 其中大部分在crawler上, 数次大的重构或重写。

Crawer主要以Clojure和Java完成。 Clojure可以把程序写得很简洁, 利用Java可以很好的组织多线程, 面向对象 + functional, 感觉很不错。

开始, 我用Clojure了封装JDK 的 URLConnection, 由于Blocking, 为了加快速度, 需要使用多线程。

有一些问题, 例如:
  1. 线程少速度慢, 线程多了内存受不了, 我对内存较敏感, 有一部分是想挑战自己, 也有一部分是因为我的VPS只有512M内存, 想在上面跑Rss miner, 包括一个Web server, 一个Rss fetcher, 一个Web Crawler, 一个Online的实时推荐算法, 筹划中….
  2. URLConnection以Stream封装, 不是很方便。
  3. 如果各个线程分别自己保存自己下载的数据, Disk可能比较辛苦。 如果用Queue送给单独的一个线程处理, 又有一个额外的线程开销。

我寻找 Non-blocking的Http Client, 试用了两个, 都不太满意, 自己写了一个, 注重性能和稳定性。

实现:
  • 4个线程, 每个线程都是一个Loop, 相互之间是Producer, Consumer的关系, 通过Queue和Event交流
  • 管理状态比较多的,用Java实现, 比如用Tagsoup抽取链接和文本, 通过规则排除部分URL
  • DNS prefetch, Pdnsd做DNS cache: UDP提前发送Query请求, 忽略结果。
  • Java搭了一个简单的框架, 提供两个Interface, 由Clojure实现
public interface IHttpTask {
    URI getUri();
    Map<String, Object> getHeaders();
    Object doTask(HttpResponse response) throws Exception;
    Proxy getProxy();
}
public interface IHttpTaskProvder {
    List<IHttpTask> getTasks();
}
posted on 2013-01-26 18:24  lexus 阅读( ...) 评论( ...) 编辑 收藏

转载于:https://www.cnblogs.com/lexus/archive/2013/01/26/2878046.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值