关闭

正则表达式

教程: http://deerchao.net/tutorials/regex/regex.htm 测试工具: http://regexpal.com/...
阅读(202) 评论(0)

Nutch-0.9源代码:NutchConfiguration类

org.apache.nutch.util.NutchConfiguration类是Nutch爬虫的配置类,其中包括爬虫的初始化配置和运行时配置。说到NutchConfiguration类,我认为有必要提到Hadoop的Configuration类,即org.apache.had...
阅读(299) 评论(0)

Nutch-0.9源代码:Crawl类整体分析

Nutch-0.9中,org.apache.nutch.crawl.Crawl类中提供了一个入口主函数main,通过接收键入的命令行,根据命令行指定的参数对Nutch进行配置,从而启动Nutch抓取程序,通过阅读org.apache.nutch.crawl.Crawl类的源代码来...
阅读(373) 评论(0)

Nutch工作流程

Nutch工作流程:建立初始URL集合分析 初始URL集的建立有两种方式:超链接和站长提交。 超链接 是指机器人程序根据网页链到其他网页中的超链接,就像日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超...
阅读(1513) 评论(1)

浅谈Nutch插件机制(含开发实例)

plugin(插件)为nutch提供了一些功能强大的部件,举个例子,HtmlParser就是使用比较普遍的用来分析nutch抓取的html文件的插件。       为什么nutch要使用这样的plugin系统?         有三个原因: 1:可扩展性        通...
阅读(610) 评论(0)

Nutch插件机制分析

引言 Nutch使用的插件机制是其所有功能的核心,所有的扩展功能包括页面分析parse、页面评分scoring、url过滤urlFilter、分词analyzer等搜索引擎的核心功能都是通过插件机制实现的。插件机制的有点有如下几点: 可扩展能力(Extensibili...
阅读(2896) 评论(1)

Map Reduce – the Free Lunch is not over?

微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software“,预言OO之后软件开发将要面临的又一次...
阅读(577) 评论(0)

nutch源代码阅读心得

主要类分析: 一、 org.apache.nutch.crawl.Injector:     1,注入url.txt     2,url标准化     3,拦截url,进行正则校验(regex-urlfilter.txt)     4,对符URL标准的url进行map...
阅读(229) 评论(0)

Eclipse之ANT使用

Ant是Java平台下非常棒的批处理命令执行程序,能非常方便地自动完成编译,测试,打包,部署等等一系列任务,大大提高开发效率。如果你现在还没有开始使用Ant,那就要赶快开始学习使用,使自己的开发水平上一个新台阶。   Eclipse中已经集成了Ant,我们可以直接在Ecli...
阅读(320) 评论(0)

Nutch的安装

1.、http://mirror.vmmatrix.net/apache/lucene/nutch/下载到Nutch的最新版本,将其解压到指定目录中,如笔者是将其解压到D:/nutch-1.2中。     2、测试Nutch命令       在运行Nutch的脚本命令...
阅读(239) 评论(0)

初识Nutch框架

简介 Nutch 是一个使用Java编写的开源的搜索引擎框架,基于开源框架Lucene,是Lucene工程的一个子项目,Lucene为 Nutch 提供了文本索引和搜索的API。 何时使用Lucene?何时使用Nutch? 如果你不需要抓取数据的话,应该...
阅读(626) 评论(0)

使用Cygwin模拟Linux环境安装配置运行基于单机的Hadoop

转自:http://hi.baidu.com/shirdrn/blog/item/b306db828d814aa40cf4d20b.html 其实,使用Cygwin模拟Linux环境来运行Hadoop是非常轻松的,只需要简单地配置一下就可以运行基于单机的Hadoop。 这里,...
阅读(1191) 评论(0)

Hadoop-0.12.2源代码:Configuration类

转自:http://hi.baidu.com/shirdrn/blog/item/80638db3118e71afd9335a80.html Configuration类位于org.apache.hadoop.conf包中,是Hadoop文件系统的配置类,用来根据配置文件中指定...
阅读(405) 评论(0)

Java关键字new和newInstance的区别方法

在初始化一个类,生成一个实例的时候,newInstance()方法和new关键字除了一个是方法,一个是关键字外,最主要有什么区别?        它们的区别在于创建对象的方式不一样,前者是使用类加载机制,后者是创建一个新类。那么为什么会有两种创建对象方式?这主要考虑到软件的可伸...
阅读(547) 评论(1)

技巧:利用 TagSoup 拯救可怕的 HTML

转自:http://www.ibm.com/developerworks/cn/xml/x-tiptagsoup.html  简介: XHTML 对于解析和屏幕擦除是一种足够友好的格式,但是 Web 仍然有很多杂乱的 HTML。在本技巧中,Uche Ogbuji 演示了使用 T...
阅读(1407) 评论(1)

用JAXP解析XML文档

Java有多种方法可以分析XML文档,你可以选择现在已经成熟的标准技术,比如DOM和SAX,或者你可以选择专用于处理XML的Java API (Java API for XML Processing,JAXP)。 JAXP是一种专门提供XML文档解析的Java接口,下面我们就来...
阅读(401) 评论(0)

Linux的一些基本概念

磁盘及分区         设备管理 在 Linux 中,每一个硬件设备都映射到一个系统的文件,对于硬盘、光驱等 IDE 或 SCSI 设备也不例外。 Linux 把各种 IDE 设备分配了一个由 hd 前缀组成的文件;而对于各种 SCSI 设备,则分配了一个由 sd 前缀组成...
阅读(250) 评论(0)

MD5算法

MD5的全称是Message-Digest Algorithm 5(信息-摘要算法),它的作用是让大容量信息在用数字签名软件签署私人密匙前被"压缩"成一种保密的格式(就是把一个任意长度的字节串变换成一定长的大整数)。      MD5的典型应用是对一段信息(Message)产生信...
阅读(226) 评论(0)

UTF-8编码

UTF-8编码字节含义对于UTF-8编码中的任意字节B,如果B的第一位为0,则B为ASCII码,并且B独立的表示一个字符;如果B的第一位为1,第二位为0,则B为一个非ASCII字符(该字符由多个字节表示)中的一个字节,并且不为字符的第一个字节编码;如果B的前两位为1,第三位为0,...
阅读(244) 评论(0)

Linux安装Java+tomcat

下载:首先,从http://java.sun.com中下载jdk,我的版本是jdk1.6.0_26,我下载的是bin文件,将下载的jdk-6u26-linux-i586.bin文件置于/usr/java中安装:然后,在shell中执行:$ sudo chmod u+x /usr/...
阅读(1222) 评论(0)
74条 共4页1 2 3 4 下一页 尾页
    个人资料
    • 访问:67474次
    • 积分:1150
    • 等级:
    • 排名:千里之外
    • 原创:45篇
    • 转载:29篇
    • 译文:0篇
    • 评论:6条
    文章分类
    最新评论