大数据技术
文章平均质量分 71
九万里大数据
这个作者很懒,什么都没留下…
展开
-
ORC文件存储格式和Hive创建ORC表
首发于: https://www.jwldata.com/archives/134.htmlORC的优点The Optimized Row Columnar (ORC) file format provides a highly efficient way to store Hive data. It was designed to overcome limitations of the other Hive file formats. Using ORC files improves performa原创 2021-08-03 08:40:24 · 2975 阅读 · 0 评论 -
CDH上HDFS配置HA后ZooKeeper无法访问hadoop-ha
当HDFS配置了NameNode HA后,通过zookeeper-client访问ZooKeeper的/hadoop-ha/nameservice1/ActiveStandbyElectorLock会报错。报错信息:[root@ctkf01 ~]# zookeeper-client[zk: localhost:2181(CONNECTED) 3] ls /hadoop-ha/nameservice1/Act.原创 2021-06-07 17:00:01 · 344 阅读 · 1 评论 -
CDH上再安装其他版本的Spark客户端
假设CDH上已经安装了Spark1.6.0和Spark2.4.0,用spark-shell和spark2-shell可以分别调用两个版本的Spark。现在需要安装第三个版本的Spark客户端,这里讲述这种场景下再安装一个1.6.3版本的Spark客户端。场景和目标CDH上已经安装.原创 2021-05-26 10:40:51 · 472 阅读 · 1 评论 -
HDFS SecondaryNameNode的原理和作用
NameNode与fsimage、edits文件NameNode(简称NN)负责管理和保存HDFS中所有的元数据,包括但不限于文件/目录结构、文件权限、块ID/大小/数量、副本策略等等。当NameNode在运行时,元数据都是保存在内存中,以保证响应时间。元数据同时也会持久化到磁盘,dfs.namenode.name.dir参数指定了元数据的磁盘保存路径。NameNode内部有两类文件用于持久化元数据:fsimag原创 2021-05-24 08:49:48 · 1678 阅读 · 3 评论 -
Zeppelin集成Hive的jdbc连接
zeppelin集成hive,是通过继承通用jdbc解释器来实现。创建Interpreter选择Interpreter选择Create,Interpreter group选择jdbc,Interpreter Name自己随便起个名。配置Properties注意,将jdbc:hive2://X.X.X.X:10000/default的jdbc连接串中的X.X.X.X替换成自己集群hiveserver2的.原创 2021-05-20 10:06:44 · 323 阅读 · 1 评论 -
搞懂HDFS体系架构这一篇就够了
Hadoop Distributed File System (HDFS)是一种分布式文件系统,具有高容错性,可运行在廉价的硬件上,具有高吞吐量,特别适合存放大规模数据集。HDFS实际架构非常复杂,今天通过一篇文章来浓缩最关键的几个点,结合图和源码等理解HDFS体系架构。系统设计目标硬件故障具有硬件故障检测能力,可自动快速恢复。流式数据访问高数据访问吞吐量,而非低延时。大数据集需支持大数据集,一原创 2021-05-10 17:54:05 · 1639 阅读 · 1 评论