正则表达式

教程: http://deerchao.net/tutorials/regex/regex.htm 测试工具: http://regexpal.com/

2011-08-15 16:50:38

阅读数:242

评论数:0

Nutch-0.9源代码:NutchConfiguration类

org.apache.nutch.util.NutchConfiguration类是Nutch爬虫的配置类,其中包括爬虫的初始化配置和运行时配置。说到NutchConfiguration类,我认为有必要提到Hadoop的Configuration类,即org.apache.had

2011-08-14 17:29:15

阅读数:341

评论数:0

Nutch-0.9源代码:Crawl类整体分析

Nutch-0.9中,org.apache.nutch.crawl.Crawl类中提供了一个入口主函数main,通过接收键入的命令行,根据命令行指定的参数对Nutch进行配置,从而启动Nutch抓取程序,通过阅读org.apache.nutch.crawl.Crawl类的源代码来

2011-08-12 16:43:02

阅读数:468

评论数:0

Nutch工作流程

Nutch工作流程:建立初始URL集合分析 初始URL集的建立有两种方式:超链接和站长提交。 超链接 是指机器人程序根据网页链到其他网页中的超链接,就像日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超

2011-08-12 16:25:53

阅读数:1622

评论数:1

浅谈Nutch插件机制(含开发实例)

plugin(插件)为nutch提供了一些功能强大的部件,举个例子,HtmlParser就是使用比较普遍的用来分析nutch抓取的html文件的插件。       为什么nutch要使用这样的plugin系统?         有三个原因: 1:可扩展性        通

2011-08-11 16:03:52

阅读数:671

评论数:0

Nutch插件机制分析

引言 Nutch使用的插件机制是其所有功能的核心,所有的扩展功能包括页面分析parse、页面评分scoring、url过滤urlFilter、分词analyzer等搜索引擎的核心功能都是通过插件机制实现的。插件机制的有点有如下几点: 可扩展能力(Extensibili

2011-08-11 15:52:14

阅读数:3114

评论数:1

Map Reduce – the Free Lunch is not over?

微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software“,预言OO之后软件开发将要面临的又一次

2011-08-11 15:37:05

阅读数:623

评论数:0

nutch源代码阅读心得

主要类分析: 一、 org.apache.nutch.crawl.Injector:     1,注入url.txt     2,url标准化     3,拦截url,进行正则校验(regex-urlfilter.txt)     4,对符URL标准的url进行map

2011-08-11 15:02:58

阅读数:283

评论数:0

Eclipse之ANT使用

Ant是Java平台下非常棒的批处理命令执行程序,能非常方便地自动完成编译,测试,打包,部署等等一系列任务,大大提高开发效率。如果你现在还没有开始使用Ant,那就要赶快开始学习使用,使自己的开发水平上一个新台阶。   Eclipse中已经集成了Ant,我们可以直接在Ecli

2011-08-11 11:38:49

阅读数:428

评论数:0

Nutch的安装

1.、http://mirror.vmmatrix.net/apache/lucene/nutch/下载到Nutch的最新版本,将其解压到指定目录中,如笔者是将其解压到D:/nutch-1.2中。     2、测试Nutch命令       在运行Nutch的脚本命令

2011-08-09 19:56:31

阅读数:275

评论数:0

初识Nutch框架

简介 Nutch 是一个使用Java编写的开源的搜索引擎框架,基于开源框架Lucene,是Lucene工程的一个子项目,Lucene为 Nutch 提供了文本索引和搜索的API。 何时使用Lucene?何时使用Nutch? 如果你不需要抓取数据的话,应该

2011-08-06 15:26:18

阅读数:742

评论数:0

使用Cygwin模拟Linux环境安装配置运行基于单机的Hadoop

转自:http://hi.baidu.com/shirdrn/blog/item/b306db828d814aa40cf4d20b.html 其实,使用Cygwin模拟Linux环境来运行Hadoop是非常轻松的,只需要简单地配置一下就可以运行基于单机的Hadoop。 这里,

2011-08-04 17:23:05

阅读数:1336

评论数:0

Hadoop-0.12.2源代码:Configuration类

转自:http://hi.baidu.com/shirdrn/blog/item/80638db3118e71afd9335a80.html Configuration类位于org.apache.hadoop.conf包中,是Hadoop文件系统的配置类,用来根据配置文件中指定

2011-08-03 17:30:15

阅读数:448

评论数:0

Java关键字new和newInstance的区别方法

在初始化一个类,生成一个实例的时候,newInstance()方法和new关键字除了一个是方法,一个是关键字外,最主要有什么区别?        它们的区别在于创建对象的方式不一样,前者是使用类加载机制,后者是创建一个新类。那么为什么会有两种创建对象方式?这主要考虑到软件的可伸

2011-08-03 11:43:50

阅读数:608

评论数:1

技巧:利用 TagSoup 拯救可怕的 HTML

转自:http://www.ibm.com/developerworks/cn/xml/x-tiptagsoup.html  简介: XHTML 对于解析和屏幕擦除是一种足够友好的格式,但是 Web 仍然有很多杂乱的 HTML。在本技巧中,Uche Ogbuji 演示了使用 T

2011-08-03 11:14:09

阅读数:1487

评论数:1

用JAXP解析XML文档

Java有多种方法可以分析XML文档,你可以选择现在已经成熟的标准技术,比如DOM和SAX,或者你可以选择专用于处理XML的Java API (Java API for XML Processing,JAXP)。 JAXP是一种专门提供XML文档解析的Java接口,下面我们就来

2011-08-02 10:30:54

阅读数:443

评论数:0

Linux的一些基本概念

磁盘及分区         设备管理 在 Linux 中,每一个硬件设备都映射到一个系统的文件,对于硬盘、光驱等 IDE 或 SCSI 设备也不例外。 Linux 把各种 IDE 设备分配了一个由 hd 前缀组成的文件;而对于各种 SCSI 设备,则分配了一个由 sd 前缀组成

2011-07-31 13:20:09

阅读数:314

评论数:0

MD5算法

MD5的全称是Message-Digest Algorithm 5(信息-摘要算法),它的作用是让大容量信息在用数字签名软件签署私人密匙前被"压缩"成一种保密的格式(就是把一个任意长度的字节串变换成一定长的大整数)。      MD5的典型应用是对一段信息(Message)产生信

2011-07-27 14:56:47

阅读数:267

评论数:0

UTF-8编码

UTF-8编码字节含义对于UTF-8编码中的任意字节B,如果B的第一位为0,则B为ASCII码,并且B独立的表示一个字符;如果B的第一位为1,第二位为0,则B为一个非ASCII字符(该字符由多个字节表示)中的一个字节,并且不为字符的第一个字节编码;如果B的前两位为1,第三位为0,

2011-07-27 14:30:49

阅读数:278

评论数:0

Linux安装Java+tomcat

下载:首先,从http://java.sun.com中下载jdk,我的版本是jdk1.6.0_26,我下载的是bin文件,将下载的jdk-6u26-linux-i586.bin文件置于/usr/java中安装:然后,在shell中执行:$ sudo chmod u+x /usr/

2011-07-26 17:18:43

阅读数:1285

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭