![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
Try Everything、
这个作者很懒,什么都没留下…
展开
-
hadoop之伪集群部署
hadoop入门简介Hadoop是apache开源的一个大数据组件,它包括大数据的计算存储以及资源和作业调度功能个,官网hadoop.apache.org广义: 以apache hadoop软件为主的生态圈(hive zookeeper spark hbase等)狭义: apache hadoop软件 hadoop的三大组成部分hdfs:存储,分布式文件系统mapreduce:计算 ...原创 2019-03-15 23:36:55 · 205 阅读 · 0 评论 -
Mapreduce(MR on yarn 架构详解与shuffle剖析)
MapReduce分布式计算框架 ,其中Map指映射元素的个数,Reduce指归约。MR on yarn 架构流程详解1)用户向yarn rm apps manager提交作业(job),其中包括applicationMaster程序、、启动applicationMaster命令等。2)RM为该job分配第一个容器,并与对应的NM通信,要求它运行这个容器并在这个容器中去启动该job的M...原创 2019-03-17 00:15:08 · 155 阅读 · 0 评论 -
Hadoop高级之HDFS&YARN HA架构剖析
1.为什么要用集群学习过程中 单点够了企业里面,伪分布式 每一个角色都是1个进程HDFS:NN 老大 master #假如master挂了,所有与nn交互的任务都会中断SNN 1h checkpoint secondary #checkpoint一小时备份一次,会有丢失一小时数据的风险DN伪分布式中hadoop的访问地址是 hdfs://ip:9000/NN节点挂...原创 2019-04-02 21:30:28 · 143 阅读 · 0 评论 -
Hadoop离线项目
离线项目下的Hadoop生态栈Hadoop生态离线项目Hadoop:(无论什么大数据项目Hadoop是少不了的)HDFS MapReduce(主要是做清洗) YARN (大数据项目基本都是跑在yarn资源框架上)Hadoop集群Hive:(主要是做计算)外部表 (会使用)SQL (会使用)数据倾斜 (会遇到的问题)优化基于元数据管理 (需要拿到元数据管理)SQL ==&...原创 2019-04-03 16:56:23 · 524 阅读 · 0 评论 -
Hadoop离线项目之数据清洗
#前言企业级项目开发流程项目调研:技术?业务?产品经理、非常熟悉业务、项目经理需求分析:做什么 做成什么样用户提出来的:显式隐式方案设计概设详设系统设计功能开发开发测试:单元测试 CICD测试功能联调性能用户 试用部署上线试运行 DIFF 稳定性正式上线 灰度后期 二期、三期、四期等运维保障 功能开发 bug修复(涉及到功能开发...原创 2019-04-06 21:20:42 · 1408 阅读 · 0 评论 -
number of splits 划分的条件
什么是InputSplitInputSplit是指逻辑切片,在MapReduce当中作业中,作为map task最小输入单位,默认是split的大小与block的大小相等,均为128MB。分片是基于文件基础上出来的而来的概念,通俗的理解一个文件可以切分为多少个片段,每个片段包括了<文件名,开始位置,长度,位于哪些主机>等信息。map task的数量由输入文件总大小和分片大小确定的;h...原创 2019-04-19 12:39:07 · 980 阅读 · 0 评论 -
压缩的好处和坏处
1. 压缩的好处和坏处 压缩技术分为有损和无损:大数据场景下我们用到的都是无损;不允许丢失数据 好处 减少存储磁盘空间 降低IO(网络的IO和磁盘的IO) 加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度 坏处 由于使用数据时,需要先将数据解压,加重CPU负荷 压缩在Hadoop中的应用 2. 压缩格式 压缩格...原创 2019-04-19 12:49:02 · 5514 阅读 · 0 评论 -
Hadoop源码编译支持压缩
Hadoop-2.6.0-CDH-5.7.0版本编译:软件环境:Hadoop Hadoop-2.6.0-cdh5.7.0-src.tar.gzjdk jdk-7u80-linux-x64.tar.gzmaven apache-maven-3.3.9-bin.tar.gzprotobuf protobuf-2.5.0.tar.g...原创 2019-04-20 10:10:00 · 204 阅读 · 0 评论 -
如何确定block损坏的位置和修复
首先通过 hadf fsck 命令帮助[hadoop@hadoop-01 ~]$ hdfs fsckUsage: hdfs fsck <path> [-list-corruptfileblocks | [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks | -replicaDetails ...原创 2019-04-20 10:38:37 · 813 阅读 · 0 评论 -
hadoop之使用LZO压缩并支持分片
1.简介:安装LZO:lzo并不是Linux系统原生支持,所以需要下载安装软件包,这里至少需要安装3个软件包。lzo, lzop, hadoop-gpl-packaging。增加索引:gpl-packaging主要作用是对压缩的lzo文件创建索引,否则的话,无论压缩的文件是否大于hdfs上的block大小,都只会是一个分片处理。2.安装lzo并生成数据:2.1生成未压缩的测试数据先...原创 2019-04-23 17:40:00 · 661 阅读 · 0 评论 -
解决Hadoop namenode无法启动以及修改hdfs的存放位置
#背景重启计算机之后,遇到了一个问题,执行start-all.sh之后,执行JPS命令,发现namenode没有启动。每次开机都得重新格式化一下namenode才可以。#原因:hadoop.tmp.dir是hadoop文件系统依赖的基础配置,很多路径都依赖它。它默认的位置是在/tmp/{$user}下面,但是在/tmp路径下的存储是不安全的,默认的/tmp文件每次重新开机会被清空,与此同时...原创 2019-04-29 22:33:36 · 2320 阅读 · 0 评论 -
jps命令查看DataNode进程不见了(hadoop3.0亲测可用)
jps: java process status tools表示java进程查看工具.解决方案就两个:1.清空tmp目录2.把tmp目录下的NameNode和DataNode的clusterID,在VERSION文件里改成一样的即可。liugen@ubuntu:/usr/local/hadoop/tmp/dfs/name/current$ gedit VERSION DataNod...转载 2020-04-25 14:11:38 · 569 阅读 · 0 评论