清水飘落叶-CSDN博客

原创 Hudi表类型以及查询方式

1、hudi表类型表类型支持的查询方式数据存储格式 Copy on Write （写时复制）快照查询+增量查询全量和增量数据均存储为列式parquet格式 Merge on Read （读时合并）快照查询+增量查询+读取优化查询（近实时）全量数据存储为列式parquet数据，增量数据存储为行式arvo格式下面总结了两种表类型之间的权衡权衡 CopyOnWrite MergeOnRead 数据延迟高...

2022-05-27 21:02:55 1474

原创异常：java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

windows下运行hadoop的程序报错java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.很明显应该是HADOOP_HOME的问题。如果HADOOP_HOME为空，必然fullExeName为null\bin\winutils.exe。解决办法：下载winutils地址https://github.com/srccodes/hadoop-common-2

2021-03-02 20:57:52 594 1

原创 hive数据迁移解决表同步问题

Hive数据迁移方案：先通过shell脚本将集群1中hive的数据导入到hdfs中将集群1的hdfs中的数据下载在本地将集群1的本地数据发送到集群2的本地上；将集群2的本地的数据导入到集群2的hdfs上；将集群的hdfs上的数据导入到hive中。步骤：1.对集群1节点与集群2节点进行免密登录[root@节点1 .ssh]# ssh-keygen -t rsa[root@节点1 .ssh]# ssh-copy-id 节点2地址[root@ 节点2 .ssh]# ssh..

2021-01-28 16:18:58 882

原创 Hadoop数据压缩

1、概述1.1 概述压缩技术能够有效减少底层存储系统（HDFS）读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时，I/O操作、网络数据传输、 Shuffle和Merge要花大量的时间，尤其是数据规模很大和工作负载密集的情况下，因此，使用数据压缩显得非常重要。鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源，数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。可以在任意MapReduce阶段启用压缩。不过，尽管压缩与解压操作的CPU开销不高，其性能的提升...

2020-08-14 18:19:55 179

原创 Hadoop小文件优化方法

1、 Hadoop小文件弊端HDFS上每个文件都要在NameNode上创建对应的元数据，这个元数据的大小约为150byte，这样当小文件比较多的时候，就会产生很多的元数据文件，一方面会大量占用NameNode的内存空间，另一方面就是元数据文件过多，使得寻址索引速度变慢。小文件过多，在进行MR计算时，会生成过多切片，需要启动过多的MapTask。每个MapTask处理的数据量小，导致MapTask的处理时间比启动时间还小，白白消耗资源。2、 Hadoop小文件解决方案小文件优化的方向：（1）

2020-08-14 17:53:36 275

原创 Hadoop常用的调优参数总结

1、资源相关参数（1）以下参数是在用户自己的MR应用程序中配置就可以生效（mapred-default.xml）配置参数参数说明 mapreduce.map.memory.mb 一个MapTask可使用的资源上限（单位:MB），默认为1024。如果MapTask实际使用的资源量超过该值，则会被强制杀死。 mapreduce.reduce.memory.mb 一个ReduceTask可使

2020-08-14 17:48:46 137 1

原创大数据技术生态体系

大数据技术生态体系图中涉及的技术名词解释如下：1）Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库（MySql）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。2）Flume：Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；3）Kafka：Kafka是一种高吞

2020-08-09 22:28:17 136

原创 Windows10 Java安装配置环境变量

Windows10 Java安装配置环境变量我们在安装好JDK后，为了方便以后Windows系统调用我们书写的程序，就需要对环境变量进行配置，下面我们以Windows10为例进行叙述，我在配置环境变量的时候也遇到一点小问题，我相信也会有个别同学在配置环境变量的时候遇到我的问题，书写下来请各位参考：1、启动Windows系统，点击设置进入Windows设置界面，如下图所示：2、环境变量设置位置方法一：依次点击：系统→关于→系统信息→高级系统设置→高级→环境变量方法二：在系统查找设置中输入“高

2020-06-26 20:56:42 324

weixin_42806885的博客