自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Hudi表类型以及查询方式

1、hudi表类型表类型 支持的查询方式 数据存储格式 Copy on Write (写时复制) 快照查询+增量查询 全量和增量数据均存储为列式parquet格式 Merge on Read (读时合并) 快照查询+增量查询+读取优化查询(近实时) 全量数据存储为列式parquet数据,增量数据存储为行式arvo格式 下面总结了两种表类型之间的权衡权衡 CopyOnWrite MergeOnRead 数据延迟 高...

2022-05-27 21:02:55 1425

原创 异常:java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

windows下运行hadoop的程序报错java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.很明显应该是HADOOP_HOME的问题。如果HADOOP_HOME为空,必然fullExeName为null\bin\winutils.exe。解决办法:下载winutils地址https://github.com/srccodes/hadoop-common-2

2021-03-02 20:57:52 541 1

原创 hive数据迁移解决表同步问题

Hive数据迁移方案:先通过shell脚本将集群1中hive的数据导入到hdfs中 将集群1的hdfs中的数据下载在本地 将集群1的本地数据发送到集群2的本地上; 将集群2的本地的数据导入到集群2的hdfs上; 将集群的hdfs上的数据导入到hive中。步骤:1.对集群1节点与集群2节点进行免密登录[root@节点1 .ssh]# ssh-keygen -t rsa[root@节点1 .ssh]# ssh-copy-id 节点2地址[root@ 节点2 .ssh]# ssh..

2021-01-28 16:18:58 861

原创 Hadoop数据压缩

1、概述1.1 概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时,I/O操作、网络数据传输、 Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。 鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。可以在任意MapReduce阶段启用压缩。不过,尽管压缩与解压操作的CPU开销不高,其性能的提升...

2020-08-14 18:19:55 152

原创 Hadoop小文件优化方法

1、 Hadoop小文件弊端HDFS上每个文件都要在NameNode上创建对应的元数据,这个元数据的大小约为150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,一方面会大量占用NameNode的内存空间,另一方面就是元数据文件过多,使得寻址索引速度变慢。小文件过多,在进行MR计算时,会生成过多切片,需要启动过多的MapTask。每个MapTask处理的数据量小,导致MapTask的处理时间比启动时间还小,白白消耗资源。2、 Hadoop小文件解决方案小文件优化的方向:(1)

2020-08-14 17:53:36 241

原创 Hadoop常用的调优参数总结

1、资源相关参数(1)以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml) 配置参数 参数说明 mapreduce.map.memory.mb 一个MapTask可使用的资源上限(单位:MB),默认为1024。如果MapTask实际使用的资源量超过该值,则会被强制杀死。 mapreduce.reduce.memory.mb 一个ReduceTask可使

2020-08-14 17:48:46 126 1

原创 大数据技术生态体系

大数据技术生态体系图中涉及的技术名词解释如下:1)Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。2)Flume:Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;3)Kafka:Kafka是一种高吞

2020-08-09 22:28:17 123

原创 Windows10 Java安装配置环境变量

Windows10 Java安装配置环境变量我们在安装好JDK后,为了方便以后Windows系统调用我们书写的程序,就需要对环境变量进行配置,下面我们以Windows10为例进行叙述,我在配置环境变量的时候也遇到一点小问题,我相信也会有个别同学在配置环境变量的时候遇到我的问题,书写下来请各位参考:1、启动Windows系统,点击设置进入Windows设置界面,如下图所示:2、环境变量设置位置方法一:依次点击:系统→关于→系统信息→高级系统设置→高级→环境变量方法二:在系统查找设置中输入“高

2020-06-26 20:56:42 294

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除