thebigforest的专栏

热爱生活,热爱自然!

thebigforestID:thebigforest
9379次访问,排名10874(1)好友0人,关注者0
thebigforest的文章
原创 12 篇
翻译 1 篇
转载 5 篇
评论 3 篇
thebigforest的公告
RIMG0133
最近评论
agjyfm:wow gold
hanyoud:哈哈 我也运行成功了 ;
我也知道以前试了好多次不成功的原因了:
是 Heritrix 1.21.1 发布的时候没有加入默认 Profile 的配置,每次基于默认新建 Job 时都是空的,有些参数没有配,
呵呵 学习了 谢谢!
xingchenburan:看来我的修炼还没到火候,看不懂
文章分类
收藏
    相册
    存档
    软件项目交易
    订阅我的博客
    XML聚合  FeedSky
    订阅到鲜果
    订阅到Google
    订阅到抓虾
    订阅到BlogLines
    订阅到Yahoo
    订阅到GouGou
    订阅到飞鸽
    订阅到Rojo
    订阅到newsgator
    订阅到netvibes

    Java

    原创 Nutch使用汇总收藏

    网上有好多的Nutch使用的文章,但其实只是几篇文章翻来覆去的拷贝而已! 1.Nutch 初体验 很经典,讲了nutch与lucene 以及其他一些爬虫的比较。和建立一个抓取企业内部网(Intranet crawling)实例。但是可能是版本的问题。其中少了关键的一步。 nutch是一个完整的搜索引擎,但是它只是一个搜索引擎他可以订制的东西太少!例如加中文分词好像要改动源文件,这样做对以后的升级维护都是麻烦。 阅读全文>

    发表于 @ 2007年10月21日 09:51:00|评论(loading...)|编辑|收藏

    原创 抓取百度搜索结果——解密百度狗收藏

    网上有很多类似“百度狗” 的元搜索引擎,他们抓取百度和google的搜索结果,然后合并在一个网页里。 且不说这样做有什么意义,但是这的确是一件好玩的事,自己想了一下原理,写了这样一个类,可以抓取百度里的搜索结果。 原理很简单: 通过搜索关键和页码字进入百度,例如“http://www.baidu.com/s?wd=搜索关键字&pn=页码(这里的页码计算公式是:10*(页码-1)) 找到真正有用的那一行,把信息读出来, 按照每一个项的特点把他们切开,例如URL前面都有“class=f”…… 然后存起来 下面是代码: 阅读全文>

    发表于 @ 2007年06月13日 12:42:00|评论(loading...)|编辑|收藏

    原创 Java 简单输入类收藏

    封装了标准的java输入机制,隐藏了异常的管理! 读取基本类性值时可以获取和处理可能出现的异常,如果出现异常则返回一个缺省值,便于防止异常的传播! 使用它的目的就是给简单程序一个更简单的做法 阅读全文>

    发表于 @ 2007年05月03日 10:36:00|评论(loading...)|编辑|收藏

    Csdn Blog version 3.1a
    Copyright © thebigforest