Mapr——开发
文章平均质量分 72
maoxiao_jsd
这个作者很懒,什么都没留下…
展开
-
Mapr与HCatalog工作(一)——HCatalog的升级
此页面包含了描述如何在MAPR分布为Apache Hadoop的升级HCatalog以下主题:更新资料库或下载的软件包移植配置文件特定版本的注意事项升级软件在升级之前,请确保MAPR核心软件的群集上的版本支持HCatalog你想升级到的版本。见HCatalog发行说明。更新资料库或下载的软件包MAPR的RPM和DEB存储库总是包含推荐为MAPR核心最新发布的HCat转载 2014-01-02 09:05:52 · 760 阅读 · 0 评论 -
MapR与Oozie工作
阿帕奇的Oozie™是一个工作流调度系统来管理Apache的Hadoop作业。Oozie的工作流程作业导演的动作非循环图(DAG)的。Oozie的协调工作是由时间(频率)和数据供应情况而引发复发性Oozie的工作流程作业。Oozie的集成了Hadoop的堆栈的其余部分支持多种类型的Hadoop作业的开箱即用(如Java的map-reduce,流的map-reduce,猪,蜂房,Sqoop和转载 2014-01-02 09:46:50 · 908 阅读 · 0 评论 -
Mapr与Hive工作(二)——使用HiveServer2
HiveServer2允许多个并发连接到蜂巢服务器在网络上。HiveServer2是作为对在MAPR分布为Apache Hadoop的蜂房0.9.0基本版本的补丁。请参阅 安装配置单元 安装的详细信息。该 MAPR-蜂巢 包包括HiveServer1和HiveServer2,你可以选择运行哪一个。此页面包含了以下主题:配置蜂房的HiveServer2启用转载 2014-01-02 09:10:31 · 3384 阅读 · 0 评论 -
Mapr使用数据(五)——Maven资源库和工件MAPR
开发基于MAPR分布为Apache Hadoop的应用程序时,您可以使用Maven的依赖管理。MAPR的Maven仓库位于http://repository.mapr.com/maven/。您还可以浏览通过Nexus的存储库。下面的POM文件可以访问MAPR的Maven仓库: MAPR-发布 h转载 2014-01-02 08:42:40 · 1133 阅读 · 1 评论 -
MapR与Mahout工作(一)——Mahout升级
此页面包含了描述如何在MAPR分布为Apache Hadoop的升级亨利马乌以下主题:更新资料库或下载的软件包移植配置文件特定版本的注意事项升级软件在升级之前,请确保MAPR核心软件的群集上的版本支持亨利马乌你想升级到的版本。见亨利马乌发行说明。更新资料库或下载的软件包MAPR的RPM和DEB库总是包含推荐为MAPR核心最新发布的亨利马乌版本。该库位于http://转载 2014-01-02 09:45:49 · 675 阅读 · 0 评论 -
Mapr与Hive工作(一)——Hive的的ODBC连接器
此页面包含有关设置和使用ODBC连接器配置单元的详细信息。此页面包含了以下主题:开始之前在SQL连接器软件和硬件要求安装和配置在DSN配置SSL配置DSN的身份验证运行SQLPrepare优化笔记数据类型HiveQL注意事项在应用笔记Microsoft Access中微软的Excel /查询画面桌面开始之前该MAP转载 2014-01-02 09:08:11 · 6149 阅读 · 0 评论 -
Mapr与HCatalog工作
阿帕奇HCatalog™是使用Apache的Hadoop创建的数据表和存储管理服务。这包括:提供了一个共享的架构和数据类型的机制。提供一个表的抽象,这样用户就不必与在何处或如何他们的数据被存储有关。跨数据处理工具,如猪提供了互操作性,地图减少,和Hive。阿帕奇HCatalog是在孵化的Apache软件基金会(ASF),由Apache孵化器PMC赞助。而孵化状态不一定是代码的完整性和稳转载 2014-01-02 09:04:37 · 981 阅读 · 0 评论 -
Mapr与Flume工作
Apache的水槽™是有效的收集,汇总和移动大量日志数据的分布式,可靠和可用的服务。它拥有一个基于流媒体数据流的简单和灵活的架构。它坚固耐用并具有容错性与可靠性的可调谐机制和许多故障切换和恢复机制。它使用一个简单的可扩展的数据模型,它允许联机分析应用。本节包含与水槽上的MAPR分布为Apache Hadoop的工作文档。您也可以参考现有文献从水槽的Apache项目。本节提供有关使用渡槽转载 2014-01-02 08:56:08 · 643 阅读 · 0 评论 -
Mapr与Cascading工作
级联™是由制作一个Java应用程序框架并行,公司,使开发人员能够快速,轻松地构建可部署和管理跨私有或基于云的Hadoop集群丰富的企业级数据处理和机器学习的应用。本节包含有关使用层叠的MAPR分布为Apache Hadoop的工作文档。您也可以参考可以从文档上的并发网站级联项目。本节提供有关使用层叠与MAPR所有相关细节,但不重复提供并发,公司文档要安装层叠,看到层叠的管理指南的部分。转载 2014-01-02 08:44:41 · 814 阅读 · 0 评论 -
Mapr与Flume工作(一)——升级Flume
此页面包含了描述如何在MAPR分布为Apache Hadoop的升级水槽以下主题:更新资料库或下载的软件包移植配置文件特定版本的注意事项升级软件在升级之前,请确保MAPR核心软件的群集上的版本支持的水槽要升级到的版本。见水槽发行说明。更新资料库或下载的软件包MAPR的RPM和DEB库总是包含推荐为MAPR核心最新发布的水槽版本。该库位于http://pack转载 2014-01-02 08:58:37 · 806 阅读 · 0 评论 -
Mapr与Hbase工作(二)——HBase的升级
此页面包含了描述如何在MAPR分布为Apache Hadoop的HBase的升级了以下主题:更新资料库或下载的软件包移植配置文件规划升级特定版本的注意事项升级软件配置群集的新版本在升级之前,请确保MAPR核心软件的群集上的版本支持HBase的你想升级到的版本。见HBase的发行说明。更新资料库或下载的软件包MAPR的RPM和DEB库总是包含推荐为MAPR核心的最新版转载 2014-01-02 09:02:15 · 990 阅读 · 0 评论 -
Mapr与Hbase工作
Apache的HBase的™是Hadoop的数据库,分布式,可扩展性,大数据存储。你可以使用Apache HBase的,当你需要随机,实时读/写访问到您的大数据。该项目的目标是非常大的表托管 - 数十亿的列行的X百万 - 集群之上的商品硬件。Apache的HBase的是一个开源,分布式,版本,面向列的商店后,谷歌的Bigtable模型:一个分布式存储系统由Chang等结构化数据。就像Bigta转载 2014-01-02 08:59:39 · 857 阅读 · 0 评论 -
Mapr与Cascading工作(一)——升级Cascading
此页面包含了描述如何在MAPR分布为Apache Hadoop的升级层叠以下主题:更新资料库或下载的软件包移植配置文件特定版本的注意事项升级软件在升级之前,请确保MAPR核心软件的群集上的版本支持级联的要升级到的版本。见层叠发行说明。更新资料库或下载的软件包MAPR的RPM和DEB库总是包含推荐为MAPR核心最新发布的层叠版本。该库位于http://package.转载 2014-01-02 08:51:50 · 747 阅读 · 0 评论 -
Mapr使用数据(四)——MAPR指标和工作绩效
该MAPR度量服务收集并显示详细的分析有关组成您的Hadoop工作的任务和任务的尝试。您可以使用MAPR控制系统,以显示基于这些分析图表和与特定的工作诊断性能问题。 观看此视频简要介绍了工作指标...该MAPR控制系统提出了集群上运行的作业,并组成一个特定的工作作为一个可排序的列表,以及与代表特定指标的分布柱状图和折线图的任务。你可以通过你感兴趣的快速查找任何异常值的度量对转载 2014-01-02 08:41:33 · 727 阅读 · 0 评论 -
MapR与Mahout工作
在Apache Mahout的™机器学习库的目标是建立可扩展的机器学习库。象夫目前提供:共同筛选用户和基于项目引荐人K均值,模糊K-均值聚类均值漂移聚类Dirichlet过程聚类潜在狄利克雷分配奇异值分解并行频繁模式挖掘互补的朴素贝叶斯分类器随机森林决策树分类依据高性能的Java集合(以前小马集合)一个充满活力的社区本节包含与亨利马乌的MAPR分布为Apache Hadoop的工作文档转载 2014-01-02 09:44:53 · 698 阅读 · 0 评论 -
Mapr与Hive工作(三)——升级hive
此页面包含了描述如何在MAPR分布为Apache Hadoop的升级蜂房以下主题:更新资料库或下载的软件包移植配置文件特定版本的注意事项升级软件更新蜂房Metastore在升级之前,请确保MAPR核心软件的群集上的版本支持蜂巢的要升级到的版本。看到蜂巢发行说明。更新资料库或下载的软件包MAPR的RPM和DEB库总是包含推荐为MAPR核心的最新版本的蜂巢版本。该库位于转载 2014-01-02 09:37:11 · 742 阅读 · 0 评论 -
Mapr与Hive工作
Apache的配置单元™是数据仓库系统的Hadoop,便于轻松实现数据汇总,即席查询,并存储在Hadoop的兼容的文件系统,如MAPR数据平台(MDP)的大型数据集进行分析。配置单元提供了一个以项目结构到这个数据,并使用类似于SQL的语言,称为HiveQL查询数据的机制。同时这个语言也可以让传统的map / reduce程序员在他们的自定义映射器和减速器堵塞时不方便或低效来表达这种逻辑HiveQL转载 2014-01-02 09:06:39 · 679 阅读 · 0 评论 -
Mapr与Hbase工作(三)——启用HBase的访问控制
开始在3.0版本中MAPR分布的Hadoop,HBase的支持访问控制列表(ACL)来限制用户权限在系统上。在群集上启用HBase的访问控制列表,请执行下列步骤:对HBase的区域服务器,编辑/ opt/mapr/hbase/hbase- / conf /中的HBase-site.xml的文件,并添加以下部分:属性> 名> hba转载 2014-01-02 09:03:19 · 1339 阅读 · 0 评论 -
Mapr与Hbase工作(一)——HBase的最佳实践
HBase的预写日志(WAL)写道许多微小的记录,并压缩它会导致大量的CPU负载。使用HBase的之前,请关闭MAPR压缩目录中的HBase的体积(通常安装在/ HBase的例子:hadoop的MFS-setcompression关闭/ HBase的您可以检查压缩是否被关闭在一个目录或安装的卷使用Hadoop的MFS列转载 2014-01-02 09:00:49 · 807 阅读 · 0 评论 -
Mapr使用数据(二)——来自apache的数据拷贝
有三种方法可以基于Hadoop分布式文件系统(HDFS)从Apache Hadoop集群中的数据复制到一个MAPR集群:如果HDFS集群使用相同版本的RPC协议的那MAPR用途(目前版本4)中,使用DistCp使用通常情况下,如下所述。如果您要复制非常少量数据,使用HFTP。如果HDFS集群和MAPR集群不使用RPC协议,或同一版本,如果由于某些其他原因上面的步骤不起作用,你可以推从HDF转载 2014-01-01 14:03:07 · 546 阅读 · 0 评论 -
Mapr配置应用程序(二)——配置的性能
您可以提供通过创建数据的多个反射镜和定义拓扑量来控制数据放置一个高性能卷:将数据存储在速度最快的服务器(例如,使用固态硬盘代替硬盘的服务器)。当您创建一个卷的镜像,请确保您的应用程序进行负载均衡,跨镜读取,以提高性能。每个镜子是一个实际的体积,这样你就可以独立地控制数据放置和复制每个镜像。最有效的方式来创建多个镜像是级联他们,而不是从相同的源卷创建所有的镜子。创建从原始卷的第一反射镜,则使用所转载 2014-01-01 14:03:56 · 694 阅读 · 0 评论 -
Mapr与Mapreduce配合工作(五)——独立操作
MAPR支持独立模式下执行工作。要使用独立模式下,您必须安装MAPR核心软件包-具体而言,MAPR芯封装。您不需要安装或运行任何服务,包括典狱长。在独立模式下,一个单一的Java进程内执行本身使用本地文件系统中一个完整的Hadoop的工作。这个部署到集群节点数量较多之前是代码开发和调试很有用。请注意,MAPR客户端不支持独立模式下,您必须安装MAPR核心。在独立模式下运行MAPR,包括使用转载 2013-12-31 00:34:51 · 695 阅读 · 0 评论 -
Mapr在java的开发指南(三)——GC在MAPR
Java中的垃圾回收(GC)算法提供了性能优化您的应用程序的机会。Java提供了以下GC算法:串行 GC。该算法通常用于客户端式的应用程序不要求低暂停时间。指定 -XX:+ UseSerialGC 才能使用此算法。并行 GC,它经过优化,可最大限度地提高吞吐量。指定 -XX:+ UseParNewGC 才能使用此算法。大多并发 或 并发标记-清除 GC,这是优化,以减少等转载 2013-12-31 00:26:10 · 636 阅读 · 0 评论 -
Mapr使用数据(三)——配置应用程序
配置新的应用程序涉及到满足性能,连续性和安全性的业务目标,同时提供必要的资源,客户,部门或项目。你一定想知道多少磁盘空间是必要的,哪些是优先在性能和可靠性方面。一旦你收集了所有的要求,您将创建一个卷管理应用程序的数据。音量提供了方便的控制数据放置,性能,保护和对整个数据集的政策。请确保集群具有存储和处理能力的应用程序。你需要考虑到数据的起始和预测大小,性能和保护要求,并运行所有的每个节点上所需转载 2013-12-31 08:42:10 · 547 阅读 · 0 评论 -
Mapr使用数据(二)——来自apache的数据拷贝
有三种方法可以基于Hadoop分布式文件系统(HDFS)从Apache Hadoop集群中的数据复制到一个MAPR集群:如果HDFS集群使用相同版本的RPC协议的那MAPR用途(目前版本4)中,使用DistCp使用通常情况下,如下所述。如果您要复制非常少量数据,使用HFTP。如果HDFS集群和MAPR集群不使用RPC协议,或同一版本,如果由于某些其他原因上面的步骤不起作用,你可以推从HDF转载 2013-12-31 08:39:44 · 880 阅读 · 0 评论 -
Mapr与Mapr-FS工作(二)——块大小
MAPR提供压缩存储集群中的文件。除非你把压缩会自动应用到未压缩的文件压缩功能。压缩的优点是:压缩数据使用网络上的带宽更少比未压缩的数据。压缩后的数据使用较少的磁盘空间。此页面包含了以下主题:选择压缩设置设置压缩的文件压缩文件的文件扩展名开启或关闭压缩的目录设置在压缩过程中洗牌选择压缩设置MAPR支持三种不同的压缩算法:LZ4(默认)LZFZLIB转载 2013-12-31 08:32:31 · 1080 阅读 · 0 评论 -
Mapr与Mapreduce配合工作(八)——编译程序管道
为了便于运行Hadoop的管道在各种平台上工作,MAPR提供Hadoop的管道,UTIL,以及管道,例如源。图标当使用管道,所有节点都必须运行的操作系统相同的分布。如果你在同一个群集节点上运行不同的分布(红帽和CentOS为例),编译后的应用程序可能在某些节点上,但不是别人跑。要编译管道的例子:安装的libssl在所有节点上。设置环境变量LIBS如下:出口LIB转载 2013-12-31 00:38:00 · 737 阅读 · 0 评论 -
Mapr与Mapreduce配合工作(三)——容量调度
容量调度是一个多用户的MapReduce作业调度程序,使企业能够模拟带有FIFO调度,为用户或组织一个专门的MapReduce集群。容量调度分簇成多个队列,从而识别不同的团体或组织。每个队列分配一个容量(电网总容量的一小部分)和作业提交到队列,并使用FIFO调度的调度队列中。启用容量调度要启用MAPR容量调度,定义mapred.jobtracker.taskSchedule转载 2013-12-31 00:31:48 · 886 阅读 · 0 评论 -
Mapr与Mapreduce配合工作(四)——公平调度
公平调度是一个多用户的MapReduce作业调度程序,使企业能够共享在多个用户之间的大型集群,并确保所有的工作获得的CPU时间大致相等的份额。公平调度组织工作成池和共享资源,公平地对所有池。默认情况下,每个用户分配一个独立的游泳池,因此,获得群集的一个相等的份额,无论有多少就业机会,他们提交。在每个池中,公平分享是用来分享的正在运行的作业的能力。池也可以被赋予权重,在配置文件中不按比例分担集群转载 2013-12-31 00:32:52 · 1055 阅读 · 0 评论 -
Mapr与Mapreduce的工作(二)——配置Mapreduce
您可以通过多种方式来满足您的特定群的需要配置你的MAPR安装。本节包含有关下列主题的信息:作业调度 -优先级,你的MAPR集群上运行MapReduce作业独立操作 -运行MapReduce作业在本地,使用本地文件系统调整您的MAPR安装 -策略优化资源,以满足您的应用程序的目标转载 2013-12-31 00:28:50 · 546 阅读 · 0 评论 -
Mapr与Mapreduce配合工作(七)——MAPR提供快速通道(称为ExpressLane)
MAPR提供快速通道(称为ExpressLane),在与一起工作的公平调度。ExpressLane是小型的MapReduce作业时,所有插槽都被长期占用的任务运行。小的工作只给这个特殊的处理,当集群忙,只有在满足了以下参数中指定的标准mapred-site.xml中:参数值描述mapred.fair转载 2013-12-31 00:37:01 · 1124 阅读 · 0 评论 -
Mapr与Mapr-FS工作(一)——块大小
在MAPR-FS文件被分成块(类似于Hadoop的块)通常,256 MB的默认。65,536个字节的任意倍数是一个有效的块大小,但正确地调整大小是很重要的:较小的块尺寸导致较大的地图的任务数量,这可能会导致较低的性能由于任务调度开销较大的块大小需要更多的内存来map任务的输出,它可以崩溃了JVM或添加显著垃圾收集的开销排序MAPR可以在以上的有300 MB每秒提供一个单一的数据流,使其转载 2013-12-31 08:31:28 · 1933 阅读 · 0 评论 -
Mapr配置应用程序(一)——配置的容量
您可以轻松地提供一个体积最大数据存储容量通过设置较低的复制因子,守业难和咨询的配额,并通过跟踪用户,组和卷存储的使用。您还可以设置权限来限制谁可以将数据写入到卷。复制因子决定了一个卷的完整副本都存储在集群中。实际存储为一个体积是音量大小乘以它的复制因子。为了最大限度地提高存储容量,在您创建卷的时候音量,以1上设置的复制因子。量配额和用户或组配额限制的数据可以写入一个用户或组的数量,或特定卷转载 2014-01-01 14:03:37 · 689 阅读 · 0 评论 -
Mapr使用数据(一)——使用NFS访问数据
不像其他的Hadoop发行版,只允许集群数据导入或导入作为批处理作业,MAPR让您安装群集本身通过NFS,使您的应用程序可以直接读取和写入数据。MAPR允许直接修改文件和多个并发读取,并通过POSIX语义写道。与NFS挂载的集群,可以直接读取和使用标准工具,应用程序和脚本写入数据。例如,您可以运行它输出到CSV文件中的MapReduce作业,然后通过NFS CSV文件直接导入到SQL。转载 2014-01-01 14:02:55 · 782 阅读 · 0 评论 -
Mapr使用数据(三)——配置应用程序
配置新的应用程序涉及到满足性能,连续性和安全性的业务目标,同时提供必要的资源,客户,部门或项目。你一定想知道多少磁盘空间是必要的,哪些是优先在性能和可靠性方面。一旦你收集了所有的要求,您将创建一个卷管理应用程序的数据。音量提供了方便的控制数据放置,性能,保护和对整个数据集的政策。请确保集群具有存储和处理能力的应用程序。你需要考虑到数据的起始和预测大小,性能和保护要求,并运行所有的每个节点上所需转载 2014-01-01 14:03:23 · 602 阅读 · 0 评论 -
Mapr与Mapreduce配合工作(六)——调整您的MAPR安装
MAPR自动调谐集群对于大多数的目的。一个服务叫监狱长决定了配置为运行TaskTracker必须服务节点机资源,并设置相应的MapReduce参数。在具有多个CPU节点,MAPR使用taskset的预留的CPU MAPR服务:在五到八个CPU的节点,CPU的0是保留给MAPR服务在九或更多CPU的节点,CPU 0和CPU1的是保留给MAPR服务在某些情况下,你可能需要手动调MAPR转载 2013-12-31 00:35:58 · 1108 阅读 · 0 评论 -
Mapr使用数据(一)——使用NFS访问数据
不像其他的Hadoop发行版,只允许集群数据导入或导入作为批处理作业,MAPR让您安装群集本身通过NFS,使您的应用程序可以直接读取和写入数据。MAPR允许直接修改文件和多个并发读取,并通过POSIX语义写道。与NFS挂载的集群,可以直接读取和使用标准工具,应用程序和脚本写入数据。例如,您可以运行它输出到CSV文件中的MapReduce作业,然后通过NFS CSV文件直接导入到SQL。转载 2013-12-31 08:37:18 · 1411 阅读 · 0 评论 -
Mapr与Mapreduce的工作(三)——配置Mapreduce
您可以使用作业调度优先考虑您的MAPR集群上运行MapReduce作业。MapReduce的系统支持最少一个队列,命名为默认值。因此,这个参数的值应始终包含字符串默认值。有些作业调度程序,如容量计划,支持多个队列。默认的工作计划是基于队列,并使用FIFO(先入先出)顺序。在生产环境中有多个用户或争夺群集资源组,可以考虑使用在MAPR提供多用户调度程序中的一个:公平调度器或容量调度。转载 2013-12-31 00:30:04 · 635 阅读 · 0 评论 -
Mapr在java的开发指南(二)——包括maprfs-0.1.jar现在下落不明的依赖性和不链接
作为MAPR分布的2.1.2版本,内容maprfs-0.1.jar被分为两部分:。maprfs-罐和maprfs-JNI-罐子。。该指MAPR分配的版本。例如,如果你有书面的现有应用程序maprfs-0.1.jar和更新它加载maprfs-2.1.2.jar,你还必须包括maprfs-JNI-2.1.2.jar。这一变化是为了在使用分布式类加载器的环境使装载maprfs库从多个上下文访问MAPR-转载 2013-12-31 00:24:41 · 1382 阅读 · 0 评论 -
Mapr的java开发指南(一)
本页描述如何访问MAPR-FS在Java程序中,并包含示例代码。此页面包含了以下主题:使用JAR文件从Maven的使用JAR文件从MAPR安装编写一个Java应用程序作为一个高性能的文件系统中,MAPR-FS文件的客户端部分是基于本地库。来访问MAPR-FS文件所需的所有依赖关系都包含在一个JAR文件,对于32 -位和64位Linux上,64位Mac OSX,和32 -位和64转载 2013-12-31 00:23:14 · 1471 阅读 · 0 评论