thebigforest的专栏

热爱生活,热爱自然!

thebigforestID:thebigforest
9734次访问,排名10976好友0人,关注者0
thebigforest的文章
原创 12 篇
翻译 1 篇
转载 5 篇
评论 3 篇
thebigforest的公告
RIMG0133
最近评论
agjyfm:wow gold
hanyoud:哈哈 我也运行成功了 ;
我也知道以前试了好多次不成功的原因了:
是 Heritrix 1.21.1 发布的时候没有加入默认 Profile 的配置,每次基于默认新建 Job 时都是空的,有些参数没有配,
呵呵 学习了 谢谢!
xingchenburan:看来我的修炼还没到火候,看不懂
文章分类
收藏
    相册
    存档
    软件项目交易
    订阅我的博客
    XML聚合  FeedSky
    订阅到鲜果
    订阅到Google
    订阅到抓虾
    订阅到BlogLines
    订阅到Yahoo
    订阅到GouGou
    订阅到飞鸽
    订阅到Rojo
    订阅到newsgator
    订阅到netvibes

    原创 Nutch使用汇总收藏

     | 旧一篇: Notepad的妙用

    网上有好多的Nutch使用的文章,但其实只是几篇文章翻来覆去的拷贝而已!

    1.Nutch 初体验

    很经典,讲了nutch与lucene 以及其他一些爬虫的比较。和建立一个抓取企业内部网(Intranet crawling)实例。但是可能是版本的问题。其中少了关键的一步。

    2.Tutorial (0.8.x) 

    这里是官方的那个文档,补全了少的那一步。

    否则出现后果为
    Fetcher: segment: info/segments/20061207221006
    Fetcher: threads: 4
    fetching http://student.ustb.edu.cn/
    fetch of http://student.ustb.edu.cn/ failed with: java.lang.NullPointerException
    Fetcher: do

    看这个一可以解决问题

    http://lucene.apache.org/nutch/tutorial8.html

    3。Nutch 初体验之二

    讲了一些nutch全网crawl的东西,其实这些都可以在nutch的wiki里找到!就是那里是英文,不太舒服!这个文章挺不错得!

    4。NutchWindows中安装之细解

    主要是说Cygwin的安装,Cygwin是个挺好的东西,建议大家即使不用Nutch也装一个,因为用bash确实很爽!

    5。nutch中文分词

    http://www.rxiao.com/blog/article.asp?id=138

    6。Nutch 使用之锋芒初试

    基本上是和Nutch 初体验之二一样的内容。

    7.试用nutch

    http://hedong.3322.org/archives/000247.html

    这个太老了,好像多不太适用了。

    8。Nutch9.0 的lucene好像有问题,要重新编译,本人没有测试。

     

    个人观点:结合我的项目这个东西不适合我。理由是:

    nutch是一个完整的搜索引擎,但是它只是一个搜索引擎他可以订制的东西太少!例如加中文分词好像要改动源文件,这样做对以后的升级维护都是麻烦。

    发表于 @ 2007年10月21日 09:51:00|评论(loading...)|编辑

     | 旧一篇: Notepad的妙用

    评论:没有评论。

    发表评论  


    当前用户设置只有注册用户才能发表评论。如果你没有登录,请点击登录
    Csdn Blog version 3.1a
    Copyright © thebigforest