Hadoop
文章平均质量分 70
u013063153
这个作者很懒,什么都没留下…
展开
-
Hadoop工作原理图-WordCount示例
public原创 2017-05-31 22:10:25 · 1300 阅读 · 0 评论 -
HDFS 2.X对比HDFS1.X 主要是HA—Zookeeper
HDFS2.X- 解决了HDFS1.0中单点故障和内存受限问题(metaData将要加载到内存)- 解决单点故障 HDFS HA:通过主备NameNode解决 如果住NameNode发生故障,则切换到备用的NameNode上- 解决内存受限问题 HDFS Federation 水平扩展,支持多个NameNode 每个NameNode分管一部分目录 所原创 2017-06-23 23:39:35 · 969 阅读 · 0 评论 -
MapReduce Map数 reduce数设置
原文:http://blog.csdn.net/wf1982/article/details/6672607JobConf.setNumMapTasks(n)是有意义的,结合block size会具体影响到map任务的个数,详见FileInputFormat.getSplits源码。假设没有设置mapred.min.split.size,缺省为1的情况下,针对每个文件会按照min (tot转载 2017-06-27 21:37:44 · 2806 阅读 · 0 评论 -
hadoop集群默认配置和常用配置
原文:http://www.cnblogs.com/ggjucheng/archive/2012/04/17/2454590.html获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoo转载 2017-06-22 23:13:41 · 604 阅读 · 0 评论 -
HDFS架构原理分析
HDFS优点:高容错性数据自动保存多个副本副本丢失后,自动恢复适合批处理移动计算而非数据数据位置暴露给计算框架适合大数据处理GB、TB、甚至PB级别数据百万规模以上的文件数量10K+节点可构建在廉价机器上可构建在廉价机器上HDFS缺点:低延原创 2017-06-22 21:58:46 · 2482 阅读 · 0 评论 -
聊一聊分布式锁的设计
原文:http://weizijun.cn/2016/03/17/%E8%81%8A%E4%B8%80%E8%81%8A%E5%88%86%E5%B8%83%E5%BC%8F%E9%94%81%E7%9A%84%E8%AE%BE%E8%AE%A1/起因前段时间,看到redis作者发布的一篇文章《Is Redlock safe?》,Redlock是redis作者基转载 2017-05-21 21:06:24 · 458 阅读 · 0 评论 -
分布式锁的几种实现形式
原文:http://www.hollischuang.com/archives/1716目前几乎很多大型网站及应用都是分布式部署的,分布式场景中的数据一致性问题一直是一个比较重要的话题。分布式的CAP理论告诉我们“任何一个分布式系统都无法同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partition tolerance),最多只能同转载 2017-05-21 20:51:56 · 451 阅读 · 2 评论 -
Hadoop中Partition解析
原文:http://www.yeolar.com/note/2013/11/19/hadoop-partition/Map的结果,会通过partition分发到 Reducer 上, Reducer 做完Reduce操作后,通过 OutputFormat ,进行输出,下面我们就来分析参与这个过程的类。Mapper 的结果,可能送到 Combiner 做合并, Com转载 2017-05-17 23:28:50 · 300 阅读 · 0 评论 -
Hadoop.2.x_常用端口及定义方法(转)
组件节点默认端口配置用途说明HDFSDataNode50010dfs.datanode.addressdatanode服务端口,用于数据传输HDFSDataNode50075dfs.datanode.http.addresshttp服务的端口转载 2017-04-26 13:46:53 · 412 阅读 · 0 评论 -
MapReduce生成HFile入库到HBase及源码分析
原文:http://blog.pureisle.net/archives/1950.html如果我们一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源, 一个比较高效便捷的方法就是使用 “Bulk Loading”方法,即hbase提供的HFileOutputFormat类。它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理,直接生成转载 2017-05-17 13:32:09 · 1301 阅读 · 1 评论 -
Hadoop中MapReduce中combine、partition、shuffle的作用是什么?在程序中怎么运用?
InputFormat类:该类的作用是将输入的文件和数据分割成许多小的split文件,并将split的每个行通过LineRecorderReader解析成,通过job.setInputFromatClass()函数来设置,默认的情况为类TextInputFormat,其中Key默认为字符偏移量,value是该行的值。Map类:根据输入的对生成中间结果,默认的情况下使用Mapper类,该类将转载 2017-05-17 10:44:22 · 13308 阅读 · 4 评论 -
hadoop集群默认配置和常用配置
原文:http://www.cnblogs.com/ggjucheng/archive/2012/04/17/2454590.html获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoo转载 2017-05-08 11:10:59 · 351 阅读 · 0 评论 -
缓存在高并发场景下的常见问题
原文:http://www.cnblogs.com/dinglang/p/6133501.html缓存一致性问题当数据时效性要求很高时,需要保证缓存中的数据与数据库中的保持一致,而且需要保证缓存节点和副本中的数据也保持一致,不能出现差异现象。这就比较依赖缓存的过期和更新策略。一般会在数据发生更改的时,主动更新缓存中的数据或者移除对应的缓存。 缓存并发问题转载 2017-05-25 22:39:23 · 403 阅读 · 0 评论 -
Hadoop on YARN参数配置讲解
文章链接:http://dongxicheng.org/tag/%E9%85%8D%E7%BD%AE%E5%8F%82%E6%95%B0/转载 2017-05-23 22:37:04 · 1087 阅读 · 0 评论 -
HDFS节点搭建(非HA的)、免密码登录
Linux命令:date 查看系统时间,要求集群中各台时间相差在30S之内。start-dfs.sh启动所有节点,需要远程登录。一、设置免密码登录生成秘钥:ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa在~/.ssh/路径下生成 id_dsa和id_dsa.pub文件将公钥追加到本地的认证文件authorized_keys中去:ca原创 2017-06-22 23:01:08 · 774 阅读 · 0 评论 -
HDFS ha 手动切换命令使用示例
hdfs haadmin -transitionToActive nn1原创 2017-06-24 15:06:25 · 3001 阅读 · 0 评论 -
HDFS集群搭建(HA)与启动
在文章http://blog.csdn.net/u013063153/article/details/73611549写到了非HA集群的搭建。现利用Zookeeper做HA,搭建HDFS集群。需要修改之前的配置。1.进入etc/hadoop/目录,干掉masters文件(此文件是存放Secondary NameNode的)cd etc/hadoop/rm -rf /home/had原创 2017-06-24 12:29:33 · 1363 阅读 · 0 评论 -
hadoop中map和reduce的数量设置问题
原文:https://my.oschina.net/Chanthon/blog/150500map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算,从这个观点来看,如果将map和reduce的数量设置为1,那么用户的任务就没有并行执行,但是map和reduce的数量也不能过多,数量过多虽然可以提高任务并行度,但是太多的转载 2017-06-27 21:35:07 · 1508 阅读 · 0 评论 -
Hive概述
Hive本质是什么?1.Hive是分布式数据仓库,同时又是查询引擎,所有Spark SQL取代只是Hive查询引擎,在企业中Hive + Spark SQL是目前最为经典的数据分析组合。2.Hive本身是一个单机版本软件,主要负责: a) 把HQL翻译成Mapper(s)-Reducer-Mapper(s)代码,并且可能产生很多MapReduces的Job b) 把生产的M原创 2017-01-16 16:20:23 · 819 阅读 · 0 评论 -
【转载 Hadoop&Spark 动手实践 2】Hadoop2.7.3 HDFS理论与动手实践
原文:http://www.cnblogs.com/licheng/p/6825089.html简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存转载 2017-06-27 21:56:16 · 1285 阅读 · 1 评论 -
如何确定 Hadoop map和reduce的个数--map和reduce数量之间的关系是什么?
原文:http://www.aboutyun.com/thread-6945-1-1.html阅读本文可以带着下面问题:1.map和reduce的数量过多会导致什么情况?2.Reduce可以通过什么设置来增加任务个数?3.一个task的map数量由谁来决定?4.一个task的reduce数量由谁来决定?一般情况下,在输入源是文件的时候,一个task的map数量由sp转载 2017-06-27 21:36:56 · 1919 阅读 · 1 评论 -
hadoop 性能调优 重要参数设置技巧(转载)
这里主要针对Mapreduce的性能调优。这里主要涉及的参数包括:HDFS:dfs.block.sizeMapredure:io.sort.mbio.sort.spill.percentmapred.local.dirmapred.map.tasks & mapred.tasktracker.map.tasks.maximummapred.r转载 2017-06-27 21:33:41 · 1535 阅读 · 0 评论 -
hadoop 2.2.X 配置参数说明:mapred-site.xml
原文:http://michaelkang.blog.51cto.com/1553154/1382816 mapreduce.task.timeout 600000 mapreduce.cluster.local.dir /hadoop/mapred( map 输出数据)的位转载 2017-06-27 21:32:49 · 5972 阅读 · 0 评论 -
Spark on YARN和MapReduce on YARN区别
Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver端采用的模型),这与Hadoop 2.0(包括YARN和MapReduce)是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型,实现方式是epoll+状态机,而Apache Spark则直接采用了开源软件Akka,该软件实现了Actor模型,性能非常高。尽管二者在server端采原创 2017-07-15 15:38:48 · 1904 阅读 · 0 评论 -
粗粒度和细粒度的区别(以Spark on Mesos为例)
(1)粗粒度模式(Coarse-grained Mode):每个应用程序的运行环境由一个Dirver和若干个Executor组成,其中,每个Executor占用若干资源,内部可运行多个Task(对应多少个“slot”)。应用程序的各个任务正式运行之前,需要将运行环境中的资源全部申请好,且运行过程中要一直占用这些资源,即使不用,最后程序运行结束后,回收这些资源。举个例子,比如你提交应用程序时,指定使转载 2017-07-06 09:51:44 · 13045 阅读 · 0 评论 -
YARN搭建与启动
一、架构二、环境搭建cd /home/hadoop-2.5.1/cd etc/hadoopvim yarn-site.xml yarn.resourcemanager.ha.enabled true yarn.resourcemanager.cluster-id yarncluster yarn.resourcema原创 2017-06-24 16:57:04 · 2430 阅读 · 0 评论 -
Zookeeper集群搭建与启动
先关闭防火墙service iptables stop检查日期date1.将zookeeper安装包移动到/home/目录下mv zookeeper-3.4.6 /home/2.在conf目录下vim zoo.cfgtickTime=2000dataDir=/opt/zookeeperclientPort=2181initLimit=5原创 2017-06-24 00:34:11 · 1345 阅读 · 0 评论 -
Hadoop2.5 HA搭建说明
四台机器:hadoop1,hadoop2,hadoop3,hadoop4 NNDNZKZKFCJNRMNM(任务管理)Hadoop1Y YY Hadoop2原创 2017-06-24 12:57:51 · 425 阅读 · 0 评论 -
Hadoop核心组件—MapReduce详解
Hadoop 分布式计算框架(MapReduce)。MapReduce设计理念:- 分布式计算- 移动计算,而不是移动数据MapReduce计算框架步骤1:splitsplit切分Block,得到很多数据片段例如图中的split0, split1, split2。步骤2:map有多少个片段,就有多少个map,map是一个Java线程。线程为硬件和原创 2017-06-24 16:28:30 · 3911 阅读 · 0 评论 -
YARN的工作原理
一、YARN的组成由ResourceManager、NodeManager、JobHistoryServer、Containers、Application Master、job、Task、Client组成。ResourceManager:一个Cluster只有一个,负责资源调度、资源分配等工作。NodeManager:运行在DataNode节点,负责启动Applicatio转载 2017-06-09 15:06:16 · 4882 阅读 · 0 评论 -
HADOOP基本操作命令
原文:http://www.cnblogs.com/gpcuster/archive/2010/06/04/1751538.htmlHADOOP基本操作命令 在这篇文章中,我们默认认为Hadoop环境已经由运维人员配置好直接可以使用。假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。启动与关闭启动HADOOP1.转载 2017-04-21 16:58:32 · 463 阅读 · 0 评论 -
MapReduce入门示例-WordCount
package org.myorg;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapr原创 2017-03-17 11:32:36 · 507 阅读 · 0 评论 -
MapReduce过程
分解MapReduce执行过程通过Mapper运行的任务从HDFS中读取数据,处理完成后,输出到HDFS中。Mapper的执行过程Mapper的任务是Java过程,从HDFS中读取数据,转换成key-value的形式,输出。其6个步骤入下:1.把输入文件按照一定的标准分片(InputSplit),每个输入片的大小是固定的。默认情况下,输入片(InputSplit原创 2017-01-08 19:03:38 · 301 阅读 · 0 评论 -
Hadoop/Spark相关面试问题总结
1、简答说一下Hadoop的map-reduce编程模型2、hadoop的TextInputFormat作用是什么,如何自定义实现3、hadoop和Spark的都是并行计算,那么他们有什么相同和区别4、为什么要用flume导入hdfs,hdfs的构架是怎样的5、map-reduce程序运行的时候会有什么比较常见的问题6、简单说一下hadoop和spark的s转载 2017-01-06 17:44:33 · 622 阅读 · 0 评论 -
工作流调度器Azkaban学习
1、Azkaban是什么 我们在工作中应该都遇到过这样的场景:有一个任务,这个任务可以划分成多个较小的任务完成,之所以进行划分是因为小任务之间可以并发的进行,例如是一个shell脚本执行的命令吧,大任务A可以划分成B、C、D、E四个子任务(脚本)完成,而B和C是可以同时进行的,D依赖B和C的输出,E又依赖D的输出,于是我们一般的做法可能就是开两个终端同时执行B和C,等转载 2017-01-04 17:59:24 · 1518 阅读 · 0 评论 -
Hadoop YARN架构设计要点
原文链接:http://shiyanjun.cn/archives/1119.htmlYARN是开源项目Hadoop的一个资源管理系统,最初设计是为了解决Hadoop中MapReduce计算框架中的资源管理问题,但是现在它已经是一个更加通用的资源管理系统,可以把MapReduce计算框架作为一个应用程序运行在YARN系统之上,通过YARN来管理资源。如果你的应用程序也需要借助YARN的转载 2016-12-12 15:16:49 · 541 阅读 · 0 评论 -
Linux集群批量管理工具parallel-ssh(PSSH)的安装与使用
使用pssh的动力源自实验室的测试项目,需要搭建一个200余台机器的集群,前期是32台机器的小集群,Hadoop软件列表中的第一个。起初我自认为装个hadoop集群,改改配置文件,重复32次就完事儿了,工作量也不是很大。但随机测试的推移,我发现,每当需要更改一个参数需要把一个操作重复执行几十次是多么另人崩溃的一件事儿。pssh这种神器真是管理集群必备!!下面是pss转载 2016-12-10 14:31:12 · 4563 阅读 · 0 评论 -
YARN的基本原理与功能组件简介
YARN(Yet Another Resource Negotiator)YARN的基本思想:将JobTracker的两个主要的功能分离成单独的组件,一个全局的ResourceManager和每个应用对应的ApplicationMaster。YARN的控制组件和架构ResourceManager-一个纯粹的调度器ApplicationMast原创 2016-11-10 16:05:05 · 4132 阅读 · 0 评论 -
MapReduce的基本原理
MapReduce是一个软件框架,可方便的编写应用程序,以并行的方式在数千商用硬件组成的集群节点中处理数TB的数据,并且提供了可靠性和容错的能力。MapReduce处理模型包括两个独立的步骤:1.并行Map阶段,输入数据被分割成离散块以便可以单独处理;1.5shuffle阶段,每个Reduce的输入都是按照键排序的,系统执行排序的过程;2.Reduce阶段,汇总原创 2016-11-10 15:50:27 · 2346 阅读 · 0 评论 -
Yarn产生的历史背景
Hadoop是Apache基金会的一个项目,目的是开发一个开源的软件,用于可靠的、可扩展的、分布式的计算。Hadoop不是一个软件,而是一个软件库,hadoop作为一个软件库,提供了一个框架,可以以分布式的方式,在集群的多台主机间,使用简单的编程模型来处理大量的数据集。Hadoop被设计成可以从单主机扩展到数千台主机,并且支持本地计算和存储。Hadoop本身被设计成可以在应用层面检测和处理原创 2016-11-10 15:33:35 · 897 阅读 · 0 评论