搜索引擎
「已注销」
这个作者很懒,什么都没留下…
展开
-
自己动手编写CSDN博客备份工具-blogspider
来源:http://blog.csdn.net/gzshun 我之前一直在看lucene,nutch,发现有这么一个现成的小应用,特转来学习下!mark一下。网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。网络爬虫最重要的任务,就是从互联网搜索出转载 2013-04-07 22:46:36 · 1677 阅读 · 0 评论 -
国内首套免费的《Nutch相关框架视频教程》(1-16)
转自:http://yangshangchuan.iteye.com/blog/1837935 Nutch是一个Java开源项目,拥有近十年的历史,从一开始的搜索引擎演变为如今的网络爬虫。在Nutch的进化过程中,产生了Hadoop、Tika和Gora三个Java开源项目。如今这三个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大数据和云计算的代名词。 本人拥有多年Nutch转载 2013-04-15 20:39:01 · 11712 阅读 · 5 评论