- 博客(12)
- 资源 (5)
- 收藏
- 关注
转载 SSH无密码确认配置
今天配置hadoop过程中发现,ssh localhost 配置RSA认证(要求无密码),不然要输入三次密码启动服务。 但是郁闷的是我执行了下面的命令却无效 Java代码 $ ssh-keygen -t rsa Generating public/private rsa key pair. Enter file in which to save the ke
2012-06-24 18:19:24 4162
转载 RSA/DSA 密钥的工作原理
原文:http://www.ibm.com/developerworks/cn/linux/security/openssh/part1/index.html 下面从整体上粗略的介绍了 RSA/DSA 密钥的工作原理。让我们从一种假想的情形开始,假定我们想用 RSA 认证允许一台本地的 Linux 工作站(称作 localbox)打开 remotebox 上的一个远程 shell,re
2012-06-22 09:48:49 5170
原创 jobClient每启动一个job就要划分一次数据吗?
因为Job每启动一次,就说明要对这批数据进行一次完整的MapReduce操作,所以要在进行MapReduce操作前即在JobClient中对数据调用InputFormat进行划分处理
2012-06-19 20:12:32 848
转载 Hadoop InputFormat浅析
在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。 数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。 先从一张经典的MapReduce工作流程图出发: 1、运行mapred程序; 2、本次运行将生成一
2012-06-19 16:49:03 562
原创 Nutch解析工厂类ParseFactory分析
nutch插件系统概念知识 1. nutch插件系统总体介绍 对于nutch的插件系统,有三个概念需要理顺,plugin、Extension、ExtensionPoint。对于这三个角色,以下画了张图加深下理解。 ExtensionPoint:是nutch系统提供给用户的可扩展的接口,用户可以对他进行实现(就是扩展)来实现自己的功能。备注:Nutch源代码中也有名为ExtensionPo
2012-06-16 16:36:22 988
原创 nutch插件系统解读材料
Nutch的插件机制分析:http://www.open-open.com/doc/view/ac5b72b3366f4586960edc9db49e31b9 深入探讨Java类加载器:http://www.ibm.com/developerworks/cn/java/j-lo-classloader/
2012-06-15 20:25:12 711
转载 nutch插件系统解析
nutch系统架构的一个亮点就是插件,借鉴这个架构我们可以设计出自己的灵活的系统架构,下面就来解析Nutch 的插件系统是怎么回事。 关于nutch,在这里了解:http://lucene.apache.org/nutch/,目前最新版本是1.0: 23 March 2009 - Apache Nutch 1.0 Released Nutch is open
2012-06-13 11:14:00 1017
原创 Nutch中ParseSegment执行流程
背景:最近在做一个关于Nutch的搜索引擎系统,要对Nutch进行自己的改进来用到项目中 ParseSegment的执行流程分析:Nutch是基于Hadoop框架的,ParseSegment解析类的执行过程就是以Hadoop为框架程序的执行流程 (1)Crawl类调用ParseSegment解析类的parse函数,对上一步检索返回的网页进行解析。 (2)ParseSegment解析类的par
2012-06-12 17:12:38 1146
原创 将hadoop源码.java程序加载到自己的工程中
原因:分析代码的时候,在eclipse中通过Build Path引入的软件包(hadoop-0.20.2-core.jar)是编译后的.class文件,是无法直接修改编译的。要很难跟踪引入包的程序执行过程。 解决方案:可以将hadoop的源代码复制到自己的工程中,这样和引入软件包的效果是相同的 具体过程: (1)下载hadoop的源代码(到apache官网下载http://download.
2012-06-11 19:00:13 1267
转载 Nutch数据在各模块间的传递
Google MapReduce研究综述 MapReduce研究探讨体会 MapReduce : Simplified Data Processing on Large Clusters MapReduce基础 未读 Hadoop 分布式计算技术专题 Nutch 是最早用MapReduce的项目 (Hadoop其实原来是Nutch的一部分),N
2012-06-10 16:15:12 1653
转载 hadoop的工作大体流程(Hadoop Inside - JobConf )
启动一个Hadoop任务,一般流程是创建一个JobConf,然后调用JobClient.runJob执行。就从这里入手分析。 runJob是一个静态方法,首先将输入的JobConf构造一个JobClient实例 /** * Build a job client, connect to the default job tracker */ public
2012-06-07 15:51:05 4351
原创 (1)nutch加载配置文件
负责加载配置文件类说明: nutch配置管理类NutchConfiguration负责加载管理nutch的配置文件信息,该类继承自Configuration,继承了Configuration所有功能,加载配置文件功能也是继承自Configuration类,下面对Configuration类进行简单的介绍。 Configuration类的静态变量defaultResources(CopyO
2012-06-05 15:48:18 1268
数据结构试验 山东大学
2011-05-19
数据库课程设计-图书馆信息管理系统
2011-05-18
图形学第二个试验-多边形世界
2011-05-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人