hadoop
修炼到救赎
这个作者很懒,什么都没留下…
展开
-
一文读懂Hadoop、HBase、Hive、Spark分布式系统架构
来源:http://developer.51cto.com/art/201609/516716.htm机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看似互不相关的他们却都是基于相同的hdfs存储和yarn资源管理,本文通过全套部署方法来让大家深...转载 2018-08-23 16:03:02 · 5340 阅读 · 0 评论 -
【hadoop】job提交全过程
一、作业提交过程之 YARN(1)作业提交第0步:client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。第1步:client向RM申请一个作业id。第2步:RM给client返回该job资源的提交路径和作业id。第3步:client提交jar包、切片信息和配置文件到指定...转载 2019-06-19 11:56:16 · 167 阅读 · 0 评论 -
Oozie是什么?
但是,一般用Azkaban了。(具体见我写的另一篇博客:)官网:https://oozie.apache.org/Oozieis a workflow scheduler system tomanage Apache Hadoop jobs.Oozie Workflow jobsareDirected Acyclical Graphs (DAGs)...转载 2019-06-18 23:51:06 · 255 阅读 · 0 评论 -
Oozie基础入门
前言:因为工作需要用到oozie,但是网上的资料越看越迷茫,经过很大的努力,终于折腾清楚了,这里,做一个总结,帮助后来者更好地进行入门,当然,粗鄙之言,难免疏漏,欢迎交流指正引入:对于我们的工作,可能需要好几个hadoop作业(job)来协作完成,往往一个job的输出会被当做另一个job的输入来使用,这个时候就涉及到了数据流的处理。我们不...转载 2019-06-18 23:48:55 · 329 阅读 · 0 评论 -
Hadoop2.5.0 Client USE
requireshadoop 2.5.0 runninghostname mappingeclipse configpackage com.dasenlin.hadoop;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apa...原创 2019-03-24 11:49:00 · 159 阅读 · 0 评论 -
adoop对JDK版本的兼容情况
转载:https://wiki.apache.org/hadoop/HadoopJavaVersionsHadoop WikiLoginHadoopJavaVersionsFrontPage RecentChanges FindPage HelpContents HadoopJavaVersionsImmutable Page Info Attachments ...转载 2019-03-23 14:51:13 · 12038 阅读 · 0 评论 -
Flink简介
来源:https://blog.csdn.net/superzyl/article/details/79748092?tdsourcetag=s_pcqq_aiomsg1.Flink的引入这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有Hadoop、Storm,以及后来的Spark,他们都有着各自专注的应用场景。Spark掀开了内存计算的先河,也以内存为赌注,赢得了内...转载 2019-03-06 09:33:48 · 358 阅读 · 0 评论 -
Hadoop免费大数据平台CDH、HDP
2) CDH有两个类型的平台(大数据套装、单机版虚拟机镜像)(1)大数据套装:由各个Hadoop大数据生态组件组成,只需简单配置就可部署。https://www.cloudera.com/downloads/cdh/5-13-0.html(2)单机版虚拟机镜像:主要用于学习和研究,不能用于部署。https://www.cloudera.com/downloads/quick...转载 2019-01-21 09:06:35 · 1542 阅读 · 0 评论 -
HDP与CDH
一、 Hadoop版本目前Hadoop发行版本非常多,我个人接触的有HDP和CDH,Hortonworks版本(Hortonworks Data Platform,简称“HDP”),Cloudera版本(Cloudera Distribution Hadoop,简称“CDH”),还有其他的版本,目前中国公司我发现用的CDH版本较多,至于什么原因我也不是很清楚,不知道是不是跟风,从我个人的角度使...转载 2019-01-21 08:56:44 · 3026 阅读 · 0 评论 -
MapReduce编程job概念原理
在Hadoop中,每个MapReduce任务都被初始化为一个job,每个job又可分为两个阶段:map阶段和reduce阶段。这两个阶段分别用两个函数来表示。Map函数接收一个<key,value>形式的输入,然后同样产生一个<ey,value>形式的中间输出,Hadoop会负责将所有具有相同中间key值的value集合在一起传递给reduce函数,reduce函数接收...转载 2019-06-19 12:10:47 · 455 阅读 · 0 评论