hadoop
文章平均质量分 75
reylee911
这个作者很懒,什么都没留下…
展开
-
spark与hadoop集成详解
我们经常被问到如何让spark集成到hadoop生态系统中,如何让spark在现有的hadoop集群中运行,本文的目的就是来回答上述问题。 1,spark主要用于提高而不是取代hadoop栈,从一开始spark就被设计从hdfs中读取存储数据,类似于其他的存储系统,例如Hbase, Amazon S3等,因此,hadoop用户可以通过结合spark来提高hadoop MR, Hbase 及其他大翻译 2015-06-03 15:08:02 · 5296 阅读 · 1 评论 -
基于Yarn运行spark应用的进程分析
首先配置HADOOP_CONF_DIR或者YARN_CONF_DIR指向hadoop集群,从而可以调用Yarn 的资源管理器。 两种模式: 1,Yarn-client: Spark driver运行在client进程中,只是利用AM(applicationMaster)向Yarn的资源管理模块申请资源。 运行此种模式只需指定参数yarn-client即可,例如: [root@l原创 2015-06-05 15:58:11 · 1985 阅读 · 0 评论 -
hadoop 2.6 环境搭建
一、环境说明 1、机器:一台物理机(MASTER)和一台虚拟机(SLAVE) 2、集群节点:两个 MASTER(Master), SLAVE(Slave) MASTER 10.12.2.182 SLAVE 10.12.2.90 3, 设置主机名称 1) Vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=MASTER 2) vi原创 2016-11-04 16:43:03 · 331 阅读 · 0 评论 -
hadoop1.x 与hadoop2.x 架构变化分析
Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更: (1)HDFS的NameNode可以以集群的方式布署,增强了NameNodes的水平扩展能力和高可用性,分别是:HDFSFederation与HA; (2)MapReduce将JobTracker中的资源管理及任务生命周期管理转载 2016-11-01 10:15:11 · 3606 阅读 · 0 评论 -
Hadoop 生态系统
1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 具有可靠、高效、可伸缩的特点。 Hadoop的核心是YARN,HDFS和Mapreduce 下图是hadoop生态系统,集成spark生态圈。在未来一段时间内,hadoop将于转载 2016-11-01 11:19:36 · 498 阅读 · 0 评论 -
Hadoop时代的大数据架构
后Hadoop时代的大数据架构 提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。 提到大数据分析平台,不得不说Hadoop系统,Had转载 2016-11-01 16:49:11 · 620 阅读 · 0 评论 -
ssh免密码登录问题分析
环境说明: 一台linux虚拟机和一台linux PC 1, 配置机器 虚拟机hostname #hostname rli_vb 查看: #hostname rli_vb 命名成功。 2, 添加hosts: 添加 10.12.2.90 rli_vb 10.12.2.182 rli_linux 到 /etc/h原创 2016-11-02 17:46:57 · 309 阅读 · 0 评论