![](https://img-blog.csdnimg.cn/20191221151715760.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop
Hadoop
大数据学习与分享
【微信公众号:大数据学习与分享】专注于大数据领域常用技术,如Spark、Hadoop、Hive、HBase、Kafka、Zookeeper等技术的使用、实战技巧、源码解读,语言主要以Java和Scala为主
展开
-
从HBase底层原理解析HBASE列族不能设计太多的原因?
在之前的文章《深入探讨HBASE》中,笔者详细介绍了:HBase基础知识(包括简介、表结构)、系统架构、数据存储WAL log和HBase中LSM树的应用HBase寻址机制minor合并和major合并region管理以及region server上下线HMaster工作机制和HBase容错性HBASE数据迁移和备份a. distcp命令拷贝hdfs文件的方式b. copytable的方式实现表的迁移和备份c. replication的方式实现表的复制d.原创 2020-11-19 16:55:07 · 555 阅读 · 1 评论 -
Hive面试常问与工作实用 —— Hive Join优化
在阐述Hive Join具体的优化方法之前,首先看一下Hive Join的几个重要特点,在实际使用时也可以利用下列特点做相应优化:1.只支持等值连接2.底层会将写的HQL语句转换为MapReduce,并且reduce会将join语句中除最后一个表外都缓存起来3.当三个或多个以上的表进行join操作时,如果每个on使用相同的字段连接时只会产生一个mapreduce具体的优化建议:1.合理的设置map和reduce数量jvm重用。可在hadoop的mapred-site.xml中设置jvm被重用的次原创 2020-05-11 21:23:05 · 294 阅读 · 0 评论 -
Hive建表时开启事务机制导致insert失败
建表语句:create table A ( table_code string, data_dt string, update_dt string) clustered by (table_code) into 1 buckets row format delimited fields terminated by '\033' stor...原创 2020-05-04 15:46:56 · 1215 阅读 · 0 评论 -
监控Yarn上运行的Spark任务实例状态
可以通过要监控的任务列表,对比存活的Spark任务,不存在的可以通过短信或邮件的方式预警。获取Spark还在运行状态任务的示例代码:private def yarn(): Unit = { val yarnConf = new YarnConfiguration() val yarnClient = YarnClient.createYarnClient() yarnC...原创 2020-04-24 21:01:11 · 1133 阅读 · 0 评论 -
Spark和MapReduce任务计算模型
【前言:本文主要从任务处理的运行模式为角度,分析Spark计算模型,希望帮助大家对Spark有一个更深入的了解。同时拿MapReduce和Spark计算模型做对比,强化对Spark和MapReduce理解】从整体上看,无论是Spark还是MapReduce都是多进程模型。如,MapReduce是由很多MapTask、ReduceTask等进程级别的实例组成的;Spark是由多个worker、ex...原创 2020-04-17 21:14:25 · 536 阅读 · 0 评论 -
NameNode主备宕机引发的思考
大家都知道在双十一这些电商大型营销活动期间,电商网站的访问量等是平时的N倍。每当这个时候到来,无论是开发还是运维人员都严阵以待生怕服务出现问题。很不幸,笔者的一个朋友在一家电商公司上班,在双十一时,恰恰就出现了NameNode宕机的生产事故。鉴于涉及到一些公司私密信息,不便发一些排查问题截图,同时,JVM调优作为大数据从业者必备技能,笔者打算后续分篇系统阐述,这里仅就问题现象、问题分析、解决方案...原创 2020-01-13 20:49:29 · 469 阅读 · 0 评论 -
关于HDFS应知应会的几个问题
1.Namenode的安全模式 ?安全模式是Namenode的一种状态(Namenode主要有active/standby/safemode三种模式)。2.哪些情况下,Namenode会进入安全模式 ?a. Namenode发现集群中的block丢失率达到一定比例时(默认0.01%),Namenode就会进入安全模式,在安全模式下,客户端不能对任何数据进行操作,只能查看元数据信息b. 在h...原创 2019-12-21 15:03:04 · 493 阅读 · 0 评论 -
必须掌握的分布式文件存储系统—HDFS
HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件,如hdfs://namenode:port/dir-a/a.data。HDFS集群分为两大角色:Namenode、D...原创 2019-12-07 20:52:23 · 343 阅读 · 0 评论 -
详解MapReduce(Spark和MapReduce对比铺垫篇)
本来今天是不打算写MapReduce的,但是考虑到目前很多公司还都在用这个计算引擎,以及后续要讲的Hive原生支持的计算引擎也是MapReduce,并且为Spark和MapReduce的对比做铺垫,笔者今天详细阐述一下MapReduce。鉴于Hadoop1.X已过时,Hadoop3.X目前用的还不多,企业中目前大量运用的还是Hadoop2.X,所以以下都是基于Hadoop2.X版本的MapRedu...原创 2019-12-01 11:41:38 · 478 阅读 · 0 评论