用scala 写了个简单的spider, 它的结构如下:
. producer: 负责向queue塞入url
. consumer: 周期性扫描queue,并取出url
. handler : 队列操作,及根据url获取网页内容的处理类
producer , consumer 作为独立的线程通过 scala actor 对queue执行并发操作
项目采用sbt构建。因时间仓促,故功能简单,希望以后有时间慢慢补充。
项目地址: https://github.com/yfwangpeng/scala-spider
作者微博: http://weibo.com/58wp58 介平