hadoop
CODE男孩
你只是看起来很努力
展开
-
hadoop常见错误及处理方法
如果大家在安装的时候遇到问题,或者按步骤安装完后却不能运行Hadoop,那么建议仔细查看日志信息,hadoop记录了详尽的日志信息,日志文件保存在logs文件夹内。无论是启动,还是以后会经常用到的MapReduce中的每一个job,以及HDFS等相关信息,Hadoop均存有日志文件以供分析。1、hadoop-root-datanode-master.log 中有如下错误:E原创 2017-06-23 09:05:42 · 3748 阅读 · 0 评论 -
hadoop2 作业执行过程之reduce过程
reduce阶段就是处理map的输出数据,大部分过程和map差不多 1 //ReduceTask.run方法开始和MapTask类似,包括initialize()初始化,根据情况看是否调用runJobCleanupTask(), 2 //runJobSetupTask(),runTaskCleanupTask()。之后进入正式的工作,主要有这么三个步骤:Copy、Sort、Reduce。...转载 2018-03-14 10:57:03 · 386 阅读 · 0 评论 -
hadoop2 作业执行过程之map过程
在执行MAP任务之前,先了解一下它的容器和它容器的领导:container和nodemanagerNodeManagerNodeManager(NM)是YARN中每个节点上的代理,它管理Hadoop集群中的单个计算节点,包括与ResourceManager保持通信,监督Container的生命周期管理,监控每个Container的资源使用(内存、CPU等)情况,追踪节点健康状况,管理日志和不同应用...转载 2018-03-14 10:56:23 · 359 阅读 · 0 评论 -
hadoop2 作业执行过程之作业提交
hadoop2.2.0、centos6.5hadoop任务的提交常用的两种,一种是测试常用的IDE远程提交,另一种就是生产上用的客户端命令行提交通用的任务程序提交步骤为:1.将程序打成jar包;2.将jar包上传到HDFS上;3.用命令行提交HDFS上的任务程序。跟着提交步骤从命令行提交开始最简单的提交命令应该如:hadoop jar /home/hadoop/hadoop-2.2.0/hadoo...转载 2018-03-14 10:48:00 · 408 阅读 · 0 评论 -
hadoop2 作业执行过程之yarn调度执行
YARN是hadoop系统上的资源统一管理平台,其主要作用是实现集群资源的统一管理和调度(目前还不完善,只支持粗粒度的CPU和内存的的调配);它的基本思想是将Mapreduce的jobtracker拆分成两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统资源的管理和分配,而Appl...转载 2018-03-14 10:46:23 · 475 阅读 · 0 评论 -
Spark在Windows下的环境搭建
由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,Hadoop的下载和配置。为了突出”From Scratch”的特点(都是标题没选好的缘故),所以下面的步骤稍显有些啰嗦,老司机大可不必阅读,直接跳过就好。 一.JDK的安装转载 2018-02-02 16:57:56 · 1035 阅读 · 0 评论 -
hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建(3)
一、文件准备 scala-2.12.1.tgz 下载地址: http://www.scala-lang.org/download/2.12.1.html 二、工具准备 2.1 Xshell 2.2 Xftp 三、操作步骤 3.1 通过Xftp将下载下来的Scala上传到指定虚拟机上传到原创 2018-02-02 15:44:04 · 532 阅读 · 0 评论 -
hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建(2)安装hadoop
一、依赖安装 安装JDK 二、文件准备 hadoop-2.7.3.tar.gz 2.2 下载地址 http://hadoop.apache.org/releases.html 三、工具准备 3.1 Xshell 3.2 Xftp 四、部署图原创 2018-02-02 15:43:07 · 293 阅读 · 0 评论 -
hadoop2.7.3+spark2.1.0+scala2.12.1环境搭建(1)安装jdk
一、文件准备 下载jdk-8u131-linux-x64.tar.gz 二、工具准备 2.1 Xshell 2.2 Xftp三、操作步骤 3.1 解压文件: $ tar zxvf jdk-8u131-linux-x64.tar.gz 解压后文件目录移动到/opt/modules原创 2018-02-02 15:39:07 · 287 阅读 · 0 评论 -
高性能Spark作业基础:你必须知道的调优原则及建议
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果没有对Spark作业进行合理的调优,Spark作业的执行速度可能会很慢,这样就完全体现不出Spark作...转载 2018-08-31 11:58:08 · 631 阅读 · 0 评论