• 我的消息
  • 我的博客
  • 我的学院
  • 我的下载
  • 我的收藏
  • 消息
  • 搜索条件:
    点击返回全部
    全部文章 > {categoryName }
    • 正则表达式

      教程: http://deerchao.net/tutorials/regex/regex.htm 测试工具: http://regexpal.com/

      原创
      2011-08-15 16:50:38
      222
      0
    • Nutch-0.9源代码:NutchConfiguration类

      org.apache.nutch.util.NutchConfiguration类是Nutch爬虫的配置类,其中包括爬虫的初始化配置和运行时配置。说到NutchConfiguration类,我认为有必...

      转载
      2011-08-14 17:29:15
      319
      0
    • Nutch-0.9源代码:Crawl类整体分析

      Nutch-0.9中,org.apache.nutch.crawl.Crawl类中提供了一个入口主函数main,通过接收键入的命令行,根据命令行指定的参数对Nutch进行配置,从而启动Nutch抓取程...

      转载
      2011-08-12 16:43:02
      422
      0
    • Nutch工作流程

      Nutch工作流程:建立初始URL集合分析 初始URL集的建立有两种方式:超链接和站长提交。 超链接 是指机器人程序根据网页链到其他网页中的超链接,就像日常生活中所说的“一传十,十传百……”一样,...

      原创
      2011-08-12 16:25:53
      1575
      1
    • 浅谈Nutch插件机制(含开发实例)

      plugin(插件)为nutch提供了一些功能强大的部件,举个例子,HtmlParser就是使用比较普遍的用来分析nutch抓取的html文件的插件。       为什么nutch要使用这样的plu...

      转载
      2011-08-11 16:03:52
      645
      0
    • Nutch插件机制分析

      引言 Nutch使用的插件机制是其所有功能的核心,所有的扩展功能包括页面分析parse、页面评分scoring、url过滤urlFilter、分词analyzer等搜索引擎的核心功能都是通过插件机制...

      转载
      2011-08-11 15:52:14
      2972
      1
    • Map Reduce – the Free Lunch is not over?

      微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Con...

      转载
      2011-08-11 15:37:05
      609
      0
    • nutch源代码阅读心得

      主要类分析: 一、 org.apache.nutch.crawl.Injector:     1,注入url.txt     2,url标准化     3,拦截url,进行正则校验(rege...

      原创
      2011-08-11 15:02:58
      256
      0
    • Eclipse之ANT使用

      Ant是Java平台下非常棒的批处理命令执行程序,能非常方便地自动完成编译,测试,打包,部署等等一系列任务,大大提高开发效率。如果你现在还没有开始使用Ant,那就要赶快开始学习使用,使自己的开发水平上...

      原创
      2011-08-11 11:38:49
      392
      0
    • Nutch的安装

      1.、http://mirror.vmmatrix.net/apache/lucene/nutch/下载到Nutch的最新版本,将其解压到指定目录中,如笔者是将其解压到D:/nutch-1.2中。 ...

      原创
      2011-08-09 19:56:31
      260
      0
  • 学院
  • 下载
  • 消息