Hadoop
钻石大门
程序员
展开
-
Hadoop伪分布式部署
参考资料:apache hadoop: hadoop.apache.orgcdh hadoop: http://archive.cloudera.com/cdh5/cdh/5/1.创建用户和上传hadoop软件wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gzrz命令上传useradd ha...原创 2019-07-05 07:40:35 · 101 阅读 · 0 评论 -
HDFS客户端的权限错误:Permission denied
搭建了一个Hadoop的环境,Hadoop集群环境部署在几个Linux服务器上,现在想使用windows上的Java客户端来操作集群中的HDFS文件,但是在客户端运行时出现了如下的认证错误,被折磨了几天,问题终得以解决。以此文记录问题的解决过程。解决办法最终,总结下来解决办法大概有三种:1、在系统的环境变量或java JVM变量里面添加HADOOP_USER_NAME,这个值具体等于多少看自...原创 2019-08-27 09:45:28 · 1039 阅读 · 0 评论 -
YARN and MapReduce的【内存】优化配置详解
在Hadoop2.x中, YARN负责管理MapReduce中的资源(内存, CPU等)并且将其打包成Container。使之专注于其擅长的数据处理任务, 将无需考虑资源调度. 如下图所示YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应用(比如MapReduce)发来的资源请求, 然后YARN会通过分配Container来给每个应用提供处理能力, Container...原创 2019-07-16 00:54:03 · 117 阅读 · 0 评论 -
YARN的Memory和CPU调优配置详解
Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位,具有一定的内存以及CPU资源。在YARN集群中,平衡内存、CPU、磁盘的资源的很重要的,根据经验,每两个...原创 2019-07-16 00:52:59 · 133 阅读 · 0 评论 -
mapred yarn常用命令
mapred常用命令mapred --help命令[hadoop@10-9-15-140 bin]$ pwd/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/bin[hadoop@10-9-15-140 bin]$ ./mapred --helpUsage: mapred [--config confdir] COMMAND where COMM...原创 2019-07-16 00:24:46 · 501 阅读 · 0 评论 -
Word Count案例的shuffle
Word Count例子:[hadoop@10-9-15-140 hadoop-2.6.0-cdh5.7.0]$ bin/hadoop jar \> ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar \> wordcount \> /examples/input \> /e...原创 2019-07-15 01:26:18 · 170 阅读 · 0 评论 -
yarn的资源调优
1.概念作业,job,application,应用,都是同一个意思Container: 容器,Yarn的组件,虚拟的概念将一定的内存CPU 比如 1G 1vcore资源抽象为一个小房间,来运行任务2.yarn的资源调优参照这张图:①内存方面:假如一台机器是64G物理内存,一般16物理core,对应的32个虚拟core(32vcore)Linux系统本身要占内存+空留: 20% ...原创 2019-07-13 15:06:18 · 695 阅读 · 0 评论 -
MapReduce学习
1.MapReduceMapReduce是由Java开发的,代码非常繁琐,现在企业基本不会用MapReduce。有少量公司仍然继续使用MapReduce,所以还是有机会碰上。Map: 映射Reduce: 规约Map:x --》(x,1) key,value 键值对y --》(y,1)z --》(z,1)x --》(x,1)Reduce:x,2y,1z,1相当于一个sq...原创 2019-07-13 12:50:38 · 148 阅读 · 0 评论 -
hadoop-2.6.0-cdh5.7.0源码编译支持压缩
前言直接从官网上下载的hadoop-2.6.0-cdh5.7.0.tar.gz部署后,不支持压缩,生产上是不可接受的,可以用hadoop checknative命令查看hadoop所支持的本地库:[hadoop@10-9-15-140 ~]$ hadoop checknative19/07/10 20:52:15 WARN util.NativeCodeLoader: Unable to l...原创 2019-07-13 02:13:00 · 296 阅读 · 0 评论 -
Hadoop Pseudo-Distributed Mode Deployment
Pre-condition and softwareHadoop version: hadoop-2.6.0-cdh5.7.0JDK version:jdk-8u45-linux-x64Linux install ssh service1.Create user and upload hadoop installation packagewget http://archive.cloud...原创 2019-07-06 20:28:30 · 179 阅读 · 0 评论 -
YARN部署并运行MapReduce任务
MapReduce: 计算, 是java开发的jar包,代码复杂,企业不用,一般用hive sql是不需要部署的,运行在Yarn上Yarn: 资源和作业的调度,是需要部署的官网:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html#YARN_on_a_Single_N...原创 2019-07-06 19:15:42 · 477 阅读 · 0 评论 -
以hostname启动hadoop各个组件
背景在Hadoop伪分布式部署中我们没有设置相关参数使得NN和DN使用的是localhost启动得,而SNN是0.0.0.0启动的。在真正生产中,不可能使用IP来启动相关组件得,因为IP很有可能会变动,也很可能你得修改大量代码中得IP。因此,使用hostname来启动各组件是最稳妥得。1.以localhost启动[hadoop@10-9-15-140 hadoop-2.6.0-cdh5.7....原创 2019-07-05 08:21:16 · 151 阅读 · 0 评论 -
盘点MapReudce在Windows上运行的坑
https://liverrrr.fun/archives/mapreduce_windows?tdsourcetag=s_pcqq_aiomsg原创 2019-09-01 00:41:20 · 147 阅读 · 0 评论