![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Search Engine
stilling2006
个人觉得技术始终在变,唯有思想永恒。写下自己的专长之时,内心惴惴不安,毕竟本人技术实在是不怎么样,或许唯一可以骄傲的地方就是年轻吧,但这点脆弱的资本在时光中也逐渐消失。梦想:骑着骆驼,看落日长河,大漠孤烟。博客:http://beyondc.cn
展开
-
Heritrix使用的初步总结
原文作者:刘夏(博客:http://www.beyondc.cn) 在使用heritrix之前,确认您的机器上安装了jdk以及Eclipse以及相关的Eclipse插件。当初自己就是没装eclipse,而是使用jbuilder在调试。总是无法成功。1.关于安装: 目前的版本号为1.12.1,官网地址为 http://crawler.archive.org原创 2009-09-28 22:15:00 · 915 阅读 · 0 评论 -
Heritrix使用的初步总结
原文作者:刘夏(博客:http://www.beyondc.cn) 可能这就是自己最近研究了heritrix这么久,可以拿得出手的一点点突破。 首先在eclipse里打开heritrix工程,在my.psotprocess包下新建一个class。命名什么都随便。代码就copy现有的FrontierSchedulerFor163Mobile就行了。会有2处错误,原创 2009-09-28 22:23:00 · 1205 阅读 · 1 评论 -
heritrix爬虫的定制--筛选格式
原文作者:刘夏(博客:http://)www.beyondc.cn 可能这就是自己最近研究了heritrix这么久,可以拿得出手的一点点突破。 首先在eclipse里打开heritrix工程,在my.psotprocess包下新建一个class。命名什么都随便。代码就copy现有的FrontierSchedulerFor163Mobile就行了。会有2处错误,原创 2009-09-28 22:26:00 · 1581 阅读 · 0 评论 -
heritrix的爬取定制
原文作者:刘夏(博客:http://www.beyondc.cn) 我想说的是----heritrix爬取特定的格式! 这是我对于搜索引擎的学习来说,最具体的一件事了。但,因为宿舍不能上网了,所以暂且对于爬虫部分都得搁浅了,开始正式阅读lucene部分的源代码了。 不管对于搜索引擎以后的学习会失败还是小有成功。我想,我以后都会不断的学习开源项目,现在真正的喜欢上了原创 2009-09-28 22:29:00 · 2958 阅读 · 1 评论 -
Ecplise与heritrix相关的插件
原文作者:刘夏(博客:http://www.beyondc.cn) 非常郁闷啊。 自己从搜索引擎的光盘上把heritrix的源代码拷到机器上,其他也都弄好了。按照书本一步步的配置。总是无法正常启动heritrix。隔壁宿舍的一同学的调试通过了,但是无法启动。而且他机器上还没装apache服务器。日子就这么天天的耗着。heritrix也就那么晾在旁边。原创 2009-09-28 22:31:00 · 958 阅读 · 1 评论