hadoop
skwang_君永夜
这个作者很懒,什么都没留下…
展开
-
hadoop异常处理之nameNode进程无法启动,报org.apache.hadoop.hdfs.server.common.InconsistentFSStateException
1、问题 重启hadoop时,控制台正常打印日志,但是jps显示无namenode进程,查询namenode日志,日志在:HADOOP_HOME/logs/ 目录下,报如下错误:2019-02-19 19:55:34,840 ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: Failed to start namenode....原创 2019-02-23 17:29:52 · 9944 阅读 · 2 评论 -
大数据常见压缩格式以及性能对比
1. 压缩的好处和坏处好处减少存储磁盘空间降低IO(网络的IO和磁盘的IO)加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度坏处由于使用数据时,需要先将数据解压,加重CPU负荷2. 常见压缩格式分析压缩格式压缩比压缩时间a. gzip优点: 压缩比在四种压缩方式中较高;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一...原创 2019-04-06 23:26:58 · 6170 阅读 · 0 评论 -
hadoop之HA生产集群部署
摘要:本文详细记载hadoop-2.6.0-cdh5.7.0在生产中HA集群部署流程,可用于学习以及生产环境部署借鉴参考。1.环境需求以及部署规划1.1 硬件环境三台阿里云主机、每台2vcore、4G内存。1.2 软件环境:组件名称组件版本HadoopHadoop-2.6.0-cdh5.7.0ZookeeperZookeeper-3.4.5jdkJd...原创 2019-04-07 00:22:37 · 2675 阅读 · 0 评论 -
基于某电商离线处理项目架构和实现一(处理流程)
1.涉及的基本组件技术Hadoop:HDFS MapReduce(清洗) YARN、需要部署Hadoop集群Hive:外部表、SQL 、解决数据倾斜 、sql优化、基于元数据管理、SQL 到MR过程Flume:将数据抽取到hdfs调度:crontab、shell、AzkabanHUE:可视化的notebook,CM自带 ,排查数据2.处理流程大数据开发:关注的是...原创 2019-03-28 12:03:40 · 707 阅读 · 0 评论 -
hadoop之hadoop-2.6.0-cdh5.7.0源码编译支持压缩以及伪分布式部署
摘要:本文详细记载hadoop-2.6.0-cdh5.7.0源码编译支持压缩以及伪分布式部署的详细步骤,可用于学习以及生产参考1.需求与设计1.1需求直接使用的hadoop-2.6.0-cdh5.7.0.tar.gz包部署的hadoop集群不支持文件压缩,生产上是不可接受的,故需要将hadoop源码下载重新编译支持压缩1.1概要设计下载hadoop源码,使用maven编译,使其支持压缩。...原创 2019-04-07 20:19:01 · 1864 阅读 · 1 评论 -
hadoop之数据分片(split)详解以及map数量控制
1.分片(splits)相关概念由InputFormat这个接口来定义的,其中有个getSplits方法。这里有一个新的概念:fileSplit。每个map处理一个fileSplit,所以有多少个fileSplit就有多少个map(map数并不是单纯的由用户设置决定的)。我们来看一下hadoop分片splits的源码:long goalSize = totalSize / (numSplit...原创 2019-04-07 20:38:21 · 5542 阅读 · 2 评论 -
Hadoop之HDFS HA架构剖析
1.命名空间:namespace在伪分布式中hadoop的访问地址是 hdfs://ip:9000/ 。ip是NN节点所在的地址。但是在HA中NN 的ip是多个的此时,若NN发生切换生产中的,我们原有的程序难道需要重新编写?这时提供了命名空间的概念,客户端通过hdfs://namespace:9000/ 访问hdfs,无需关注具体访问的NN地址,用户无感知。注意:1、namespac...原创 2019-04-02 10:21:49 · 941 阅读 · 0 评论 -
Hadoop之YARN HA架构剖析
1.YARN HA架构图 注意:0.客户端还是通过namenode去寻找能进行访问的active节点,图中暂时未画 1.这里是zkfc是 RM中的线程 2.RM是通过ZK来共享数据,默认目录 /rmstore #配置:yarn.resourcemanager.zk-state-store.parent-path =/rmstore 3.NM 只会向 R...原创 2019-04-02 10:35:26 · 395 阅读 · 0 评论 -
hadoop之文件压缩格式对比分析以及配置实现
文章目录1.大数据常见的压缩格式2.压缩使用场景2.1如何判定是否使用压缩?2.2压缩在ETL作业生命周期在使用场景3.MR文件压缩配置实现3.1 确保hadoop支持压缩3.2修改hadoop配置文件4.hive文件压缩配置实现4.1 原测试数据大小4.2文件不压缩4.2文件采用bzip2压缩4.3文件采用压缩gzip压缩1.大数据常见的压缩格式压缩分为有损和无损两大类,生产中的压缩技术一定...原创 2019-04-16 17:28:53 · 1464 阅读 · 2 评论 -
hadoop之生产常用的文件格式
文章目录1.生产常用的文件格式2.行式与列式存储对比2.1行式与列式存储数据物理底层存储区别2.2优缺点3.hive文件格式配置实现以及对比3.1使用SEQUENCEFILE文件格式3.2使用RCFILE格式3.3使用ORC文件格式3.4使用PARQUET文件格式3.5读取数据量对比1.生产常用的文件格式查询hive的官网可知,hive的文件格式有如下SEQUENCEFILE:生产中绝对不...原创 2019-04-16 18:31:35 · 1019 阅读 · 0 评论 -
hadoop之使用LZO压缩文件并支持分片
文章目录1.安装lzo以及生成测试数据1.1生成未压缩的测试数据1.2安装lzo相关工具1.3使用lzop工具压缩测试数据2.编译hadoop-lzo2.1 获取hadoop-lzo源码2.2mvn编译源码3.配置hadoop3.1上传hadoop-lzo.jar3.2配置core.site.xml3.3配置mapred-site.xml4.LZO文件测试4.1LZO文件不支持分片4.2LZO文件...原创 2019-04-16 18:49:51 · 1674 阅读 · 1 评论 -
hue之部署集成
文章目录1 hue简介2.基础环境2.1物理环境2.2组件环境3.安装编译hue3.1安装依赖的环境3.2设置环境变量3.3编译hue3.4设置hue.ini文件( $HUE_HOME/desktop/conf/hue.ini)4.Hue集成hadoop4.1修改hadoop配置文件( $HADOOP_HOME/etc/hadoop/ )4.2修改hue.ini配置文件( $HUE_HOME/de...原创 2019-04-17 16:02:48 · 1183 阅读 · 1 评论 -
hadoop之基于某电商离线处理项目架构和实现二(ETL数据清洗)
目录1.需求2.详细设计3.使用idea进行MR编程4.本机测试5.服务器测试6.使用hive完成最基本的统计分析1.需求 对CDN的点击日志数据清洗2.详细设计 进行MR编程,对日志文件数据进行清洗,并将清洗后的数据加载到hive外部表3.使用idea进行MR编程 这里不进行详细的记录。项目源码链接如下:链接:https://pan...原创 2019-04-01 16:52:47 · 1137 阅读 · 0 评论 -
hadoop之MapReduce详解【转】
转自:https://blog.csdn.net/weixin_44591209/article/details/88049264MapReduce源于Google一篇论文,它充分借鉴了“分而治之”的思想,将一个数据处理过程拆分为主要的Map(映射)与Reduce(归约)两步。简单地说,MapReduce就是"任务的分解与结果的汇总"。 MapReduce (MR) 是一个...转载 2019-03-06 18:51:29 · 209 阅读 · 0 评论 -
hadoop之JPS命令真相与hadoop进程PID剖析
1.jps命令简介选项 作用 -q 只输出LVMID,省略主类的名称 -m 输出启动时,传给main()函数的参数 -l 输出主类全类名 -v 输出jvm参数 jps命令是显示正在运行的java程序,root用户使用时显示所有运行的java程序,普通用户只显示自己启动的正在运行的java程序,而ps显示所有的进程,包括java程序。然而jps显...原创 2019-02-23 18:01:40 · 1478 阅读 · 0 评论 -
hadoop异常处理之pid文件误删除导致部分hadoop进程无法关闭
1.问题以及原因采坑重要,Linux在/tmp目录会定期删除一些文件和文件夹, 如30天周期,当然hadoop进程pid文件存放/tmp目录下时,是有被删除风险,生产中出现过这种情况,重启hadoop,jps进程未减少,但是新的和旧的进程混在了一起,造成了紊乱。2.模拟pid文件被删除情况ll /tmp/ #默认在/tmp下,可知存在hdfs进程的三个pid存放文件,cat可得带进程...原创 2019-02-23 18:20:05 · 808 阅读 · 0 评论 -
hadoop之伪集群部署
简介:本文章详细介绍了hadoop-2.6.0-cdh5.7.0在centos6.X上的部署流程以及生产中注意事项目录1、hadoop入门简介2、下载安装包。3、安装前置条件4、创建hadoop用户和上传hadoop软件5、使用root用户安装JDK6、配置ssh免密码互信7、部署hdfs8、优化-以本机hostname机器启动hdfs9、优化-修改hado...原创 2019-02-23 19:50:09 · 672 阅读 · 0 评论 -
hadoop之hdfs与yarn界面功能介绍
1、hdfs的web界面介绍1.1、访问地址:http://ip:50070,默认是50070端口1.2tab页功能介绍overview:显示概要信息,关注度较高,主要关注如红色圈信息 datanodes:显示所有datanode节点信息,关注度一般Datanode Volume Failures:失败的数据节点卷,关注度低snapshot: 快照,关注度低start...原创 2019-02-25 11:32:26 · 7042 阅读 · 0 评论 -
hadoop之hdfs架构设计详解以及数据block剖析
目录1.hdfs block数据块大小剖析2.hdfs架构设计3.snn备份nn流程详解1.hdfs block数据块大小剖析1.1block大小配置查询 Hadoop2.6.0数据块默认配置是134217728字节,即128M,1.x时默认是64M,生产一般是使用默认值。1.2 block大小以及副本数配置修改vim H...原创 2019-02-25 18:58:29 · 466 阅读 · 0 评论 -
hadoop之hdfs读写流程详解与block副本放置策略
目录 1.hdfs写流程 1.1流程图1.2流程详解:2.hdfs读流程2.1流程图2.2流程详解:3.block副本放置策略1.hdfs写流程1.1流程图1.2流程详解:1)Client端调用DistributedFileSystem.create(filePath)方法,去与NN进行【RPC】通信,nn 会check该路径的文...原创 2019-02-25 20:25:22 · 950 阅读 · 0 评论 -
hadoop之HDFS启动过程详解
<div id="article_content" class="article_content clearfix csdn-tracking-statistics" data-pid="blog" data-mod="popu_307" data-dsm="post">转载 2019-02-26 10:24:25 · 6312 阅读 · 0 评论 -
hadoop之MR on yarn 架构详解与shuffle剖析
目录1.MapReduce简介2.Container简介3.vcore简介4.MR on yarn 架构4.1架构图4.2相关角色介绍4.3流程详解5.MR 与 yarn常用命令6.Shuffle剖析1.MapReduce简介大数据最早的分布式计算框架,如今企业开发已不会直接使用java代码写MR代码运行作业,因为只有map、reduce两种函数,代码很...原创 2019-02-26 14:36:31 · 1158 阅读 · 0 评论 -
hadoop之WordCount编程详解
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时...原创 2019-02-26 15:14:09 · 617 阅读 · 0 评论 -
hadoop之YARN生产资源调优以及作业调度规则解析
1、YARN架构设计mr job执行流程,mr on yarn架构设计,yarn架构设计三个指的都是同一个架构,请阅读:https://blog.csdn.net/qq_24073707/article/category/76308912.YARN生产上资源管理调优-非常重要至关重要,这里是生产中hadoop平台最核心最重要的地方,伴随着hadoop平台的整个生命周期,好的yarn配置...原创 2019-02-26 21:25:07 · 987 阅读 · 0 评论 -
hadoop之hdfs、yarn、MR相关总结
简介:这里对之前的hdfs、yarn、MR相关概念做一个总结,方便快速阅读理解。一、HDFSHDFS是分布式文件系统,有高容错性的特点,可以部署在价格低廉的服务器上,主要包含namenode和datanode。Namenode是hdfs中文件目录和文件分配管理者,它保存着文件名和数据块的映射管理,数据块和datanode列表的映射关系。其中文件名和数据块的关系保存在磁盘上,但是name...原创 2019-02-27 10:22:02 · 2085 阅读 · 0 评论 -
hadoop之YARN的Memory和CPU调优配置详解
转载:http://blog.itpub.net/30089851/viewspace-2127851/,部分内容讲解并不适合最新的hadoop版本,但可以借鉴学习。 Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配...原创 2019-02-27 11:48:23 · 4230 阅读 · 0 评论 -
hadoop之hdfs生产数据块损坏修复方法
1、手动修复: hdfs fsck / #首先检查哪些数据块丢失了 hdfs debug recoverLease -path 文件位置 -retries 重试次数# 修复指定路径的hdfs文件,尝试多次 此时,hdfs就能被修复了,切记不要使用hdfs fsck / -delete 命令,它是删除所有损坏的块的数据文件,会导致数据彻底丢失,当然若只有一个副本,或...原创 2019-03-06 17:40:25 · 15658 阅读 · 1 评论 -
Hadoop之使用MR编程实现join的两种方法
1.需求有两张表,分表是产品信息数据以及用户页面点击日志数据如下:#产品信息数据:product_info.txt#c1=产品ID(id),c2=产品名称(name),c3=价格(privce),c4=生产国家(country)p0001,华为,8000,中国p0002,小米,3000,中国p0003,苹果,1500,美国p0004,三星,10000,韩国#用户页面点击日志数据:...原创 2019-04-28 01:53:53 · 1319 阅读 · 1 评论