自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (5)
  • 收藏
  • 关注

转载 SSH无密码确认配置

今天配置hadoop过程中发现,ssh localhost 配置RSA认证(要求无密码),不然要输入三次密码启动服务。 但是郁闷的是我执行了下面的命令却无效 Java代码 $ ssh-keygen -t rsa  Generating public/private rsa key pair. Enter file in which to save the ke

2012-06-24 18:19:24 4162

转载 RSA/DSA 密钥的工作原理

原文:http://www.ibm.com/developerworks/cn/linux/security/openssh/part1/index.html   下面从整体上粗略的介绍了 RSA/DSA 密钥的工作原理。让我们从一种假想的情形开始,假定我们想用 RSA 认证允许一台本地的 Linux 工作站(称作 localbox)打开 remotebox 上的一个远程 shell,re

2012-06-22 09:48:49 5170

原创 jobClient每启动一个job就要划分一次数据吗?

因为Job每启动一次,就说明要对这批数据进行一次完整的MapReduce操作,所以要在进行MapReduce操作前即在JobClient中对数据调用InputFormat进行划分处理

2012-06-19 20:12:32 848

转载 Hadoop InputFormat浅析

在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。 数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。 先从一张经典的MapReduce工作流程图出发: 1、运行mapred程序; 2、本次运行将生成一

2012-06-19 16:49:03 562

原创 Nutch解析工厂类ParseFactory分析

nutch插件系统概念知识 1. nutch插件系统总体介绍 对于nutch的插件系统,有三个概念需要理顺,plugin、Extension、ExtensionPoint。对于这三个角色,以下画了张图加深下理解。 ExtensionPoint:是nutch系统提供给用户的可扩展的接口,用户可以对他进行实现(就是扩展)来实现自己的功能。备注:Nutch源代码中也有名为ExtensionPo

2012-06-16 16:36:22 988

原创 nutch插件系统解读材料

Nutch的插件机制分析:http://www.open-open.com/doc/view/ac5b72b3366f4586960edc9db49e31b9 深入探讨Java类加载器:http://www.ibm.com/developerworks/cn/java/j-lo-classloader/

2012-06-15 20:25:12 711

转载 nutch插件系统解析

nutch系统架构的一个亮点就是插件,借鉴这个架构我们可以设计出自己的灵活的系统架构,下面就来解析Nutch 的插件系统是怎么回事。     关于nutch,在这里了解:http://lucene.apache.org/nutch/,目前最新版本是1.0:     23 March 2009 - Apache Nutch 1.0 Released     Nutch is open

2012-06-13 11:14:00 1017

原创 Nutch中ParseSegment执行流程

背景:最近在做一个关于Nutch的搜索引擎系统,要对Nutch进行自己的改进来用到项目中 ParseSegment的执行流程分析:Nutch是基于Hadoop框架的,ParseSegment解析类的执行过程就是以Hadoop为框架程序的执行流程 (1)Crawl类调用ParseSegment解析类的parse函数,对上一步检索返回的网页进行解析。 (2)ParseSegment解析类的par

2012-06-12 17:12:38 1146

原创 将hadoop源码.java程序加载到自己的工程中

原因:分析代码的时候,在eclipse中通过Build Path引入的软件包(hadoop-0.20.2-core.jar)是编译后的.class文件,是无法直接修改编译的。要很难跟踪引入包的程序执行过程。 解决方案:可以将hadoop的源代码复制到自己的工程中,这样和引入软件包的效果是相同的 具体过程: (1)下载hadoop的源代码(到apache官网下载http://download.

2012-06-11 19:00:13 1267

转载 Nutch数据在各模块间的传递

Google MapReduce研究综述 MapReduce研究探讨体会 MapReduce : Simplified Data Processing on Large Clusters   MapReduce基础   未读 Hadoop 分布式计算技术专题       Nutch 是最早用MapReduce的项目 (Hadoop其实原来是Nutch的一部分),N

2012-06-10 16:15:12 1653

转载 hadoop的工作大体流程(Hadoop Inside - JobConf )

启动一个Hadoop任务,一般流程是创建一个JobConf,然后调用JobClient.runJob执行。就从这里入手分析。 runJob是一个静态方法,首先将输入的JobConf构造一个JobClient实例     /**      * Build a job client, connect to the default job tracker      */     public

2012-06-07 15:51:05 4351

原创 (1)nutch加载配置文件

负责加载配置文件类说明: nutch配置管理类NutchConfiguration负责加载管理nutch的配置文件信息,该类继承自Configuration,继承了Configuration所有功能,加载配置文件功能也是继承自Configuration类,下面对Configuration类进行简单的介绍。 Configuration类的静态变量defaultResources(CopyO

2012-06-05 15:48:18 1268

JMF开源软件包

JMF开源软件包,可以使用编写视频音乐播放器等

2012-09-23

javacc-4.0和javacc-5.0

用于编译.jj文件的软件包,javacc工具,编译NutchAnalysis.jj文件时用到的,很好的一个开源代码

2012-09-17

数据结构试验 山东大学

山东大学 数据结构试验 试验1 子集全排序 试验2 插入排序 冒泡排序 归并排序 基数排序 试验3 链表 插入删除 合并 正向反向输出 试验4 二叉树 插入删除 前序中序后序遍历 试验5 堆 插入删除输出排序 试验6 图 输出最小树

2011-05-19

数据库课程设计-图书馆信息管理系统

(1) 读者信息的制定、输入、修改、查询,包括种类、性别、借书数量、借书期限、备注。 (2) 书籍基本信息制定、输入、修改、查询,包括书籍编号、类别、关键词、备注。 (3) 借书信息制定、输入、修改、查询,包括书籍编号、读者编号、借书日期、借书期限、备注。 (4) 还书信息制定、输入、修改、查询,包括书籍编号、读者编号、还书日期、还书期限、备注。 (5)意外处理(续借、超期赔偿、丢失赔偿、损坏赔偿等) (6)多条件查询各种信息. (7)用户权限(普通读者和图书管理员) (8)异常处理

2011-05-18

图形学第二个试验-多边形世界

写一个可以交互的OpenGL应用程序,支持用户利用鼠标创建和删除2维多边形对象。基本功能包括: 对象创建:支持用户利用鼠标指定各个顶点位置,创建多边形。 对象删除: 支持用户选择一个多边形(与你的多边形保存的数据结构有关)并删除。 对象存储: 设计一种数据结构存储每个多边形的顶点与边,支持文件存盘,。 提示:由于删除操作需要多边形的选择机制,你可以在设计数据结构时,把可以帮助你完成选择的信息一起保存。 扩展功能可以包括(至少选择其一): 1. 支持用户选择多边形的颜色 2. 支持用户移动多边形 3. 支持用户改变多边形单个顶点的位置 4. 支持3D多边形 5. 其他(需要通过指导老师认可)

2011-05-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除