2013年12月_maoxiao_jsd

转载 Mapr使用数据（三）——配置应用程序

配置新的应用程序涉及到满足性能，连续性和安全性的业务目标，同时提供必要的资源，客户，部门或项目。你一定想知道多少磁盘空间是必要的，哪些是优先在性能和可靠性方面。一旦你收集了所有的要求，您将创建一个卷管理应用程序的数据。音量提供了方便的控制数据放置，性能，保护和对整个数据集的政策。请确保集群具有存储和处理能力的应用程序。你需要考虑到数据的起始和预测大小，性能和保护要求，并运行所有的每个节点上所需

2013-12-31 08:42:10 547

转载 Mapr使用数据（二）——来自apache的数据拷贝

有三种方法可以基于Hadoop分布式文件系统（HDFS）从Apache Hadoop集群中的数据复制到一个MAPR集群：如果HDFS集群使用相同版本的RPC协议的那MAPR用途（目前版本4）中，使用DistCp使用通常情况下，如下所述。如果您要复制非常少量数据，使用HFTP。如果HDFS集群和MAPR集群不使用RPC协议，或同一版本，如果由于某些其他原因上面的步骤不起作用，你可以推从HDF

2013-12-31 08:39:44 880

转载 Mapr使用数据（一）——使用NFS访问数据

不像其他的Hadoop发行版，只允许集群数据导入或导入作为批处理作业，MAPR让您安装群集本身通过NFS，使您的应用程序可以直接读取和写入数据。MAPR允许直接修改文件和多个并发读取，并通过POSIX语义写道。与NFS挂载的集群，可以直接读取和使用标准工具，应用程序和脚本写入数据。例如，您可以运行它输出到CSV文件中的MapReduce作业，然后通过NFS CSV文件直接导入到SQL。

2013-12-31 08:37:18 1411

转载 Mapr使用数据

本节包含有关使用数据信息：来自Apache Hadoop的数据复制 -使用DistCp使用将数据从一个Apache集群复制到MAPR数据保护 -如何保护数据不被破坏或删除数据访问使用NFS -如何通过NFS挂载的集群与卷管理数据 -使用卷管理数据镜像卷 -卷的本地或远程副本附表 -调度快照和镜子快照 -点即时影像卷

2013-12-31 08:34:55 659

转载 Mapr与Mapr-FS工作（二）——块大小

MAPR提供压缩存储集群中的文件。除非你把压缩会自动应用到未压缩的文件压缩功能。压缩的优点是：压缩数据使用网络上的带宽更少比未压缩的数据。压缩后的数据使用较少的磁盘空间。此页面包含了以下主题：选择压缩设置设置压缩的文件压缩文件的文件扩展名开启或关闭压缩的目录设置在压缩过程中洗牌选择压缩设置MAPR支持三种不同的压缩算法：LZ4（默认）LZFZLIB

2013-12-31 08:32:31 1080

转载 Mapr与Mapr-FS工作（一）——块大小

在MAPR-FS文件被分成块（类似于Hadoop的块）通常，256 MB的默认。65,536个字节的任意倍数是一个有效的块大小，但正确地调整大小是很重要的：较小的块尺寸导致较大的地图的任务数量，这可能会导致较低的性能由于任务调度开销较大的块大小需要更多的内存来map任务的输出，它可以崩溃了JVM或添加显著垃圾收集的开销排序MAPR可以在以上的有300 MB每秒提供一个单一的数据流，使其

2013-12-31 08:31:28 1933

转载 Mapr与Mapreduce配合工作（八）——编译程序管道

为了便于运行Hadoop的管道在各种平台上工作，MAPR提供Hadoop的管道，UTIL，以及管道，例如源。图标当使用管道，所有节点都必须运行的操作系统相同的分布。如果你在同一个群集节点上运行不同的分布（红帽和CentOS为例），编译后的应用程序可能在某些节点上，但不是别人跑。要编译管道的例子：安装的libssl在所有节点上。设置环境变量LIBS如下：出口LIB

2013-12-31 00:38:00 737

转载 Mapr与Mapreduce配合工作（七）——MAPR提供快速通道（称为ExpressLane）

MAPR提供快速通道（称为ExpressLane），在与一起工作的公平调度。ExpressLane是小型的MapReduce作业时，所有插槽都被长期占用的任务运行。小的工作只给这个特殊的处理，当集群忙，只有在满足了以下参数中指定的标准mapred-site.xml中：参数值描述mapred.fair

2013-12-31 00:37:01 1124

转载 Mapr与Mapreduce配合工作（六）——调整您的MAPR安装

MAPR自动调谐集群对于大多数的目的。一个服务叫监狱长决定了配置为运行TaskTracker必须服务节点机资源，并设置相应的MapReduce参数。在具有多个CPU节点，MAPR使用taskset的预留的CPU MAPR服务：在五到八个CPU的节点，CPU的0是保留给MAPR服务在九或更多CPU的节点，CPU 0和CPU1的是保留给MAPR服务在某些情况下，你可能需要手动调MAPR

2013-12-31 00:35:58 1108

转载 Mapr与Mapreduce配合工作（五）——独立操作

MAPR支持独立模式下执行工作。要使用独立模式下，您必须安装MAPR核心软件包-具体而言，MAPR芯封装。您不需要安装或运行任何服务，包括典狱长。在独立模式下，一个单一的Java进程内执行本身使用本地文件系统中一个完整的Hadoop的工作。这个部署到集群节点数量较多之前是代码开发和调试很有用。请注意，MAPR客户端不支持独立模式下，您必须安装MAPR核心。在独立模式下运行MAPR，包括使用

2013-12-31 00:34:51 695

转载 Mapr与Mapreduce配合工作（四）——公平调度

公平调度是一个多用户的MapReduce作业调度程序，使企业能够共享在多个用户之间的大型集群，并确保所有的工作获得的CPU时间大致相等的份额。公平调度组织工作成池和共享资源，公平地对所有池。默认情况下，每个用户分配一个独立的游泳池，因此，获得群集的一个相等的份额，无论有多少就业机会，他们提交。在每个池中，公平分享是用来分享的正在运行的作业的能力。池也可以被赋予权重，在配置文件中不按比例分担集群

2013-12-31 00:32:52 1055

转载 Mapr与Mapreduce配合工作（三）——容量调度

容量调度是一个多用户的MapReduce作业调度程序，使企业能够模拟带有FIFO调度，为用户或组织一个专门的MapReduce集群。容量调度分簇成多个队列，从而识别不同的团体或组织。每个队列分配一个容量（电网总容量的一小部分）和作业提交到队列，并使用FIFO调度的调度队列中。启用容量调度要启用MAPR容量调度，定义mapred.jobtracker.taskSchedule

2013-12-31 00:31:48 886

转载 Mapr与Mapreduce的工作（三）——配置Mapreduce

您可以使用作业调度优先考虑您的MAPR集群上运行MapReduce作业。MapReduce的系统支持最少一个队列，命名为默认值。因此，这个参数的值应始终包含字符串默认值。有些作业调度程序，如容量计划，支持多个队列。默认的工作计划是基于队列，并使用FIFO（先入先出）顺序。在生产环境中有多个用户或争夺群集资源组，可以考虑使用在MAPR提供多用户调度程序中的一个：公平调度器或容量调度。

2013-12-31 00:30:04 635

转载 Mapr与Mapreduce的工作（二）——配置Mapreduce

您可以通过多种方式来满足您的特定群的需要配置你的MAPR安装。本节包含有关下列主题的信息：作业调度 -优先级，你的MAPR集群上运行MapReduce作业独立操作 -运行MapReduce作业在本地，使用本地文件系统调整您的MAPR安装 -策略优化资源，以满足您的应用程序的目标

2013-12-31 00:28:50 546

转载 Mapr与Mapreduce的工作（一）

如果你已经使用Hadoop的过去运行MapReduce作业，然后运行MAPR分布的Apache Hadoop作业会很熟悉。MAPR是一个完整的Hadoop发行版，API兼容所有版本的Hadoop。MAPR提供不存在于任何其他Hadoop发行版的其他功能。在下面的小节上手之一。MapReduce的配置作业调度独立操作调整您的MAPR安装编译程序管

2013-12-31 00:27:36 554

转载 Mapr在java的开发指南（三）——GC在MAPR

Java中的垃圾回收（GC）算法提供了性能优化您的应用程序的机会。Java提供了以下GC算法：串行 GC。该算法通常用于客户端式的应用程序不要求低暂停时间。指定 -XX：+ UseSerialGC 才能使用此算法。并行 GC，它经过优化，可最大限度地提高吞吐量。指定 -XX：+ UseParNewGC 才能使用此算法。大多并发或并发标记-清除 GC，这是优化，以减少等

2013-12-31 00:26:10 636

转载 Mapr在java的开发指南（二）——包括maprfs-0.1.jar现在下落不明的依赖性和不链接

作为MAPR分布的2.1.2版本，内容maprfs-0.1.jar被分为两部分：。maprfs-罐和maprfs-JNI-罐子。。该指MAPR分配的版本。例如，如果你有书面的现有应用程序maprfs-0.1.jar和更新它加载maprfs-2.1.2.jar，你还必须包括maprfs-JNI-2.1.2.jar。这一变化是为了在使用分布式类加载器的环境使装载maprfs库从多个上下文访问MAPR-

2013-12-31 00:24:41 1382

转载 Mapr的java开发指南（一）

本页描述如何访问MAPR-FS在Java程序中，并包含示例代码。此页面包含了以下主题：使用JAR文件从Maven的使用JAR文件从MAPR安装编写一个Java应用程序作为一个高性能的文件系统中，MAPR-FS文件的客户端部分是基于本地库。来访问MAPR-FS文件所需的所有依赖关系都包含在一个JAR文件，对于32 -位和64位Linux上，64位Mac OSX，和32 -位和64

2013-12-31 00:23:14 1471

转载 Mapr搜索指南（一）——Mapr全文检索

在MAPR全文检索您可以将LucidWorks搜索功能与运行MAPR分布的Hadoop无需使用专门的查询语法上的群集数据进行全文搜索的集群。存储在典型的MAPR集群非常大的数据集可以使他们具有挑战性的查询。MapReduce的工作需要编程知识来创建。Apache的钻头需要使用类似SQL的搜索语法。集成LucidWorks搜索功能与您的MAPR集群使您能够在集群中的任何索引的数据上任意的字符

2013-12-31 00:20:40 977

转载 Mapr升级步骤（五）——故障排除解决问题（一）

开始在MAPR版本1.2.8，在NFS文件句柄格式的变化使得NFS文件句柄不兼容运行MAPR早期版本1.2.7或NFS服务器和运行MAPR 1.2.8及以下服务器之间。最初安装上运行MAPR版本1.2.7或更早版本的节点的NFS服务器的NFS客户端必须重新挂载文件系统时，节点升级到MAPR版本1.2.8或以下。如果您正在执行滚动升级，需要整个升级过程中保持NFS服务，您可以使用下面

2013-12-31 00:17:13 652

转载 Mapr升级步骤（四）——配置新版本

您已成功升级MAPR包到新版本，您就可以配置群集来启用新功能。不是所有的新功能是默认启用的，因此管理员必须做出改变，在特定时间的选项。请按照本节中的步骤来启用新功能。请注意，您不必启用所有新功能。此页面包含了以下主题：启用V3.0特点启用新的文件系统功能配置CLDB新版本申请许可，以使用表启用2.0版功能启用新的文件系统功能启用集中配置启用/禁用集中记录启用

2013-12-31 00:15:25 896

转载 Mapr升级方案（三）——脚本的滚动升级

图标该rollingupgrade.sh脚本不支持的SUSE。在SUSE集群必须升级，配备手动滚动升级或离线升级。该rollingupgrade.sh脚本升级每个节点上的核心包，日志输出到滚动升级日志（/选择/ MAPR /日志/ rollingupgrade.log）。核心设计目标，为脚本滚动升级过程是保持集群运行在升级过程中可能的最高容量。随着3.0.1版本的MAPR分布的

2013-12-31 00:13:37 796

转载 Mapr升级方案（二）——离线升级

此页面包含了以下主题：概观规划节点顺序为什么节点顺序事项移动CLDB节点的JobTracker的服务关闭升级动物园管理员包上的所有ZooKeeper的节点升级一半的节点，一个接一个，直至活动JobTracker的升级所有剩余节点，与Active JobTracker的开始概观在滚动升级过程，升级MAPR软件的一个节点的时间，使集群作为

2013-12-31 00:11:54 848

转载 Mapr升级方案（一）——离线升级

对于离线升级包升级过程遵循以下顺序。1。暂停作业2。停止群集服务2A。断开NFS安装和停止NFS服务器2B。停止蜂房和Apache HBase的服务2C。停止MAPR核心服务3。升级包和配置文件3A。升级或安装HBase的客户端MAPR表图3b。运行upgrade2maprexecute4。重新启动群集服务4A。重新启动MAPR核心服务图4b。运行简

2013-12-31 00:05:12 2346

转载 Mapr升级步骤（三）——升级套餐

当你计划你的升级过程和执行所有准备步骤，您就可以升级MAPR包在集群中的所有节点。升级过程有所不同，具体取决于您正在执行离线升级或滚动升级。选择你计划安装流程：离线升级滚动升级脚本的滚动升级要完成升级过程，并最终维护窗口，你需要执行额外的描述的集群配置步骤配置新版本。

2013-12-30 23:56:36 564

转载 Mapr升级步骤（二）——准备升级

当你计划你的升级过程中，您就可以准备群集升级。此页面包含操作步骤，您现在可以执行，而现有集群已全面投入使用。此页面包含了以下主题： 1。验证所有节点的系统要求 2。准备包和库的升级 3。阶段配置文件 4。执行版本特定的步骤 5。设计健康检查 6。验证集群健康 7。备份关键数据 8。移动JobTrackers关闭CLDB节点（仅滚动升级） 9。运行你的升级计划上测试集群执行这

2013-12-30 23:44:14 880

转载 Mapr升级步骤（一）

第一阶段成功的升级过程是可以提前准备的。此页面可帮助您绘制出一个适合你的集群和用户的需求的升级过程。此页面包含了以下主题：选择升级方法离线升级滚动升级调度升级考虑到生态系统的组成审查服务布局选择升级方法选择升级方法，形成在此基础上选择你的升级计划。MAPR提供了离线升级方法，以及一个滚动升级方法符合特定条件的集群。您选择影响的事件流，而在节点升级包，并且还影

2013-12-30 23:42:14 640

转载 Mapr升级指南

本指南介绍了升级软件版本MAPR集群上的过程。此页面包含：升级过程概述升级方法：离线升级与滚动升级什么得到升级目标升级程序特定版本的注意事项当从MAPR 1.x版升级当从MAPR 2.x版升级当从任何版本升级到3.0.2 MAPR在本指南中，我们使用条款现有的版本意味着MAPR版本要升级的，并且新版本意味着要升级更新的版本来。升级过程概述

2013-12-30 23:40:25 894

转载 Mapr 安装hadoop的组件(十一)——安装Whirr

阿帕奇呼呼™是一套用于运行云服务的图书馆。呼呼规定：云无关的方式来运行服务。您不必担心每个供应商的特质。一个常见的服务API。配置细节都特别的服务。聪明的默认服务。你可以得到一个正确配置的系统快速运行，同时仍然能够根据需要重写设置。您还可以使用呼呼作为一个命令行工具，用于部署集群。安装呼呼以下过程使用的操作系统软件包管理器，从MAPR存储库下载安装。要手动安装软件包，请

2013-12-30 23:34:48 769

转载 Mapr 安装hadoop的组件(十)——安装Sqoop

Sqoop MAPR-FS和关系数据库之间的数据传输。您可以使用Sqoop从关系型数据库管理系统（RDBMS），如MySQL或Oracle的数据传输到MAPR-FS和使用的MapReduce上传送的数据。Sqoop可以导出这个转换后的数据返回到一个RDBMS。有关Sqoop更多信息，请参阅Apache的Sqoop文档。安装Sqoop以下过程使用的操作系统软件包管理器，从MAPR存储库下

2013-12-30 23:33:36 652

转载 Mapr 安装hadoop的组件(九)——安装Pig

Apache的猪是通过一个叫PigLatin语言的大型数据集并行分析的平台。有关猪的更多信息，请参见猪项目页面。一旦安装了猪，可执行文件位于：/ opt/mapr/pig/pig- / bin中/猪确保环境变量JAVA_HOME是否设置正确。例如：＃出口JAVA_HOME = / usr/lib/jvm/java- 6 -太阳

2013-12-30 23:32:03 607

转载 Mapr 安装hadoop的组件(八)——安装Oozie

Oozie的是Hadoop的一个工作流系统。使用Oozie的，你可以设置工作流执行的MapReduce工作和协调的管理工作流程。安装了Oozie以下过程使用的操作系统软件包管理器，从MAPR存储库下载安装。要手动安装软件包，请参阅准备包和存储库。到MAPR群集上安装了Oozie：Oozie的的客户端/服务器架构需要你安装两个包，MAPR-Oozie的和MAPR-Oozie的内部

2013-12-30 23:30:10 843

转载 Mapr 安装hadoop的组件(七)——安装MultiTool

该MT命令是围绕Cascading.Multitool，一个命令行工具，用于处理大型文本文件和数据集（如sed和grep的在UNIX上）的包装。该MT命令位于/选择/ MAPR /的contrib /多刀/ bin中的目录。使用MT，更改为多刀目录。例如：CD /选择/ MAPR /的contrib /多刀。/ bin中/吨

2013-12-30 23:27:39 524

转载 Mapr 安装hadoop的组件(六)——安装Mahout

阿帕奇亨利马乌™是一个可扩展的机器学习库。有关亨利马乌更多信息，请参阅Apache的亨利马乌项目。本页内容：安装亨利马乌配置环境亨利马乌入门亨利马乌安装亨利马乌当MAPR服务是最初安装在讨论亨利马乌可以安装安装MAPR服务。如果初始MAPR服务安装过程中没有安装亨利马乌，亨利马乌可以在日后通过执行本节中的说明进行安装。这些程序可以在一个节点上的MAPR集群进行（见安装指南）

2013-12-30 23:25:42 901

转载 Mapr 安装hadoop的组件(五)——安装Impala

黑斑羚的MAPR黑斑羚是违背了原生存储在MAPR-FS和HBase的数据的分布式查询执行引擎。建筑帕拉先决条件安装必备的软件包运行下面的命令来安装必备包黑斑羚：[用户名@主机名]须藤yum的安装libevent的，发育的automake libtool的柔性野牛的gcc-c + +的的openssl-发育使cmake的do

2013-12-30 23:13:09 1021

转载 Mapr 安装hadoop的组件(四)——安装hive

Apache的配置单元是使用类似于SQL的语言，称为蜂房查询语言（HQL）查询存储在一个分布式文件系统的结构化数据的数据仓库系统的Hadoop。有关配置单元的详细信息，请参阅Apache的配置单元的项目页面。本页内容：安装配置单元，HiveServer2，和Hive Metastore入门蜂巢启动蜂巢管理蜂巢Metastore管理Hiveserver2默认配置单元目录蜂

2013-12-30 23:09:45 1261

转载 Mapr 安装hadoop的组件(三)——安装hbase

HBase的是Hadoop的数据库，它提供了随机，实时读/写访问非常大的数据。请参阅安装HBase的了解有关使用HBase的与MAPR请参阅设置压缩与HBase的信息有关压缩HFILE存储请参阅运行MapReduce作业与HBase的了解有关使用MapReduce的与HBase的见 HBase的最佳实践为HBase的技巧和窍门HBase的安装哪

2013-12-30 23:06:03 1444

转载 Mapr 安装hadoop的组件(二)——安装Flume

Flume是一个可靠的，分布式的收集，汇总和移动大量的日志数据，一般提供的数据分布式文件系统，如MAPR-FS服务。安装Flume以下过程使用的操作系统软件包管理器，从MAPR存储库下载安装。如果你想从包文件手动安装此组件，请参阅包和依赖关系为MAPR软件。要在Ubuntu的群集上安装水槽：执行以下命令以根或使用sudo的。此过程是将一个MAPR集群上执行。如果你还没有安装

2013-12-30 22:49:31 726

转载 Mapr 安装hadoop的组件(一)——安装cascading

安装Cascading以下过程使用的操作系统软件包管理器，从MAPR存储库下载安装。要手动安装软件包，请参阅准备包和存储库。要在Ubuntu的群集上安装级联：执行以下命令以根或使用sudo的。此过程是将一个MAPR集群上执行。如果你还没有安装MAPR，请参见安装指南。更新可用软件包列表：apt-get update

2013-12-30 22:42:58 1425

转载初始Mapr(七)——造就集群

软件跨节点的集群的安装将更加顺利，如果服务已经被预先计划和各节点已被验证。谈到在开发的集群设计规划群集，确保每个节点已编制完成，符合规定的最低要求编制各节点，而MAPR包已经安装在每个节点上按照该计划。初始化顺序故障排除安装集群许可证验证群集状态添加卷下一步造就群集包括启动ZooKeeper的服务，启动CLDB服务，设立了管理用户和安装MAPR许可证。一旦这些初始步

2013-12-30 22:31:16 1435 1

sh整合的模拟学生选课的源代码

空空如也