RuizeMa
码龄16年
关注
提问 私信
  • 博客:110,581
    110,581
    总访问量
  • 45
    原创
  • 999,259
    排名
  • 8
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2009-03-12
博客简介:

RZ.M

查看详细资料
个人成就
  • 获得10次点赞
  • 内容获得5次评论
  • 获得31次收藏
创作历程
  • 74篇
    2011年
成就勋章
TA的专栏
  • ACM
    2篇
  • Android
    11篇
  • C++
    8篇
  • English
    2篇
  • Java
    13篇
  • Software Engineering
    2篇
  • 杂七杂八
    17篇
  • Linux
    6篇
  • Nutch
    9篇
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

正则表达式

教程:http://deerchao.net/tutorials/regex/regex.htm测试工具:http://regexpal.com/
原创
发布博客 2011.08.15 ·
489 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Nutch-0.9源代码:NutchConfiguration类

org.apache.nutch.util.NutchConfiguration类是Nutch爬虫的配置类,其中包括爬虫的初始化配置和运行时配置。说到NutchConfiguration类,我认为有必要提到Hadoop的Configuration类,即org.apache.had
转载
发布博客 2011.08.14 ·
593 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Nutch-0.9源代码:Crawl类整体分析

Nutch-0.9中,org.apache.nutch.crawl.Crawl类中提供了一个入口主函数main,通过接收键入的命令行,根据命令行指定的参数对Nutch进行配置,从而启动Nutch抓取程序,通过阅读org.apache.nutch.crawl.Crawl类的源代码来
转载
发布博客 2011.08.12 ·
746 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Nutch工作流程

Nutch工作流程:建立初始URL集合分析初始URL集的建立有两种方式:超链接和站长提交。超链接 是指机器人程序根据网页链到其他网页中的超链接,就像日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超
原创
发布博客 2011.08.12 ·
1984 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

浅谈Nutch插件机制(含开发实例)

plugin(插件)为nutch提供了一些功能强大的部件,举个例子,HtmlParser就是使用比较普遍的用来分析nutch抓取的html文件的插件。      为什么nutch要使用这样的plugin系统?        有三个原因:1:可扩展性       通
转载
发布博客 2011.08.11 ·
964 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Nutch插件机制分析

引言Nutch使用的插件机制是其所有功能的核心,所有的扩展功能包括页面分析parse、页面评分scoring、url过滤urlFilter、分词analyzer等搜索引擎的核心功能都是通过插件机制实现的。插件机制的有点有如下几点:可扩展能力(Extensibili
转载
发布博客 2011.08.11 ·
3819 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Map Reduce – the Free Lunch is not over?

微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software“,预言OO之后软件开发将要面临的又一次
转载
发布博客 2011.08.11 ·
811 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

nutch源代码阅读心得

主要类分析:一、 org.apache.nutch.crawl.Injector:     1,注入url.txt    2,url标准化    3,拦截url,进行正则校验(regex-urlfilter.txt)    4,对符URL标准的url进行map
原创
发布博客 2011.08.11 ·
452 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Eclipse之ANT使用

Ant是Java平台下非常棒的批处理命令执行程序,能非常方便地自动完成编译,测试,打包,部署等等一系列任务,大大提高开发效率。如果你现在还没有开始使用Ant,那就要赶快开始学习使用,使自己的开发水平上一个新台阶。  Eclipse中已经集成了Ant,我们可以直接在Ecli
原创
发布博客 2011.08.11 ·
704 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Nutch的安装

1.、http://mirror.vmmatrix.net/apache/lucene/nutch/下载到Nutch的最新版本,将其解压到指定目录中,如笔者是将其解压到D:/nutch-1.2中。    2、测试Nutch命令      在运行Nutch的脚本命令
原创
发布博客 2011.08.09 ·
539 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

初识Nutch框架

简介Nutch 是一个使用Java编写的开源的搜索引擎框架,基于开源框架Lucene,是Lucene工程的一个子项目,Lucene为 Nutch 提供了文本索引和搜索的API。何时使用Lucene?何时使用Nutch?如果你不需要抓取数据的话,应该
原创
发布博客 2011.08.06 ·
1297 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

使用Cygwin模拟Linux环境安装配置运行基于单机的Hadoop

转自:http://hi.baidu.com/shirdrn/blog/item/b306db828d814aa40cf4d20b.html其实,使用Cygwin模拟Linux环境来运行Hadoop是非常轻松的,只需要简单地配置一下就可以运行基于单机的Hadoop。这里,
转载
发布博客 2011.08.04 ·
1625 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hadoop-0.12.2源代码:Configuration类

转自:http://hi.baidu.com/shirdrn/blog/item/80638db3118e71afd9335a80.htmlConfiguration类位于org.apache.hadoop.conf包中,是Hadoop文件系统的配置类,用来根据配置文件中指定
转载
发布博客 2011.08.03 ·
657 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Java关键字new和newInstance的区别方法

在初始化一个类,生成一个实例的时候,newInstance()方法和new关键字除了一个是方法,一个是关键字外,最主要有什么区别?       它们的区别在于创建对象的方式不一样,前者是使用类加载机制,后者是创建一个新类。那么为什么会有两种创建对象方式?这主要考虑到软件的可伸
原创
发布博客 2011.08.03 ·
992 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

技巧:利用 TagSoup 拯救可怕的 HTML

转自:http://www.ibm.com/developerworks/cn/xml/x-tiptagsoup.html 简介: XHTML 对于解析和屏幕擦除是一种足够友好的格式,但是 Web 仍然有很多杂乱的 HTML。在本技巧中,Uche Ogbuji 演示了使用 T
转载
发布博客 2011.08.03 ·
1935 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

用JAXP解析XML文档

Java有多种方法可以分析XML文档,你可以选择现在已经成熟的标准技术,比如DOM和SAX,或者你可以选择专用于处理XML的Java API (Java API for XML Processing,JAXP)。JAXP是一种专门提供XML文档解析的Java接口,下面我们就来
转载
发布博客 2011.08.02 ·
671 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Linux的一些基本概念

磁盘及分区        设备管理 在 Linux 中,每一个硬件设备都映射到一个系统的文件,对于硬盘、光驱等 IDE 或 SCSI 设备也不例外。 Linux 把各种 IDE 设备分配了一个由 hd 前缀组成的文件;而对于各种 SCSI 设备,则分配了一个由 sd 前缀组成
原创
发布博客 2011.07.31 ·
570 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MD5算法

MD5的全称是Message-Digest Algorithm 5(信息-摘要算法),它的作用是让大容量信息在用数字签名软件签署私人密匙前被"压缩"成一种保密的格式(就是把一个任意长度的字节串变换成一定长的大整数)。      MD5的典型应用是对一段信息(Message)产生信
原创
发布博客 2011.07.27 ·
458 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

UTF-8编码

UTF-8编码字节含义对于UTF-8编码中的任意字节B,如果B的第一位为0,则B为ASCII码,并且B独立的表示一个字符;如果B的第一位为1,第二位为0,则B为一个非ASCII字符(该字符由多个字节表示)中的一个字节,并且不为字符的第一个字节编码;如果B的前两位为1,第三位为0,
原创
发布博客 2011.07.27 ·
779 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Linux安装Java+tomcat

下载:首先,从http://java.sun.com中下载jdk,我的版本是jdk1.6.0_26,我下载的是bin文件,将下载的jdk-6u26-linux-i586.bin文件置于/usr/java中安装:然后,在shell中执行:$ sudo chmod u+x /usr/
原创
发布博客 2011.07.26 ·
1497 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多