- 博客(1)
- 收藏
- 关注
原创 Heritrix使用的初步总结(转)
Heritrix使用的初步总结 一、框架介绍 公司最近项目要用到全文检索,检索对象是一些网站的网页内容,要使用到网络爬虫工具。 目前技术选型对象主要有两个:Heritrix 和 Nutch。二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘蛛( Web Crawler),它们...
2010-12-28 15:29:55 99
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人