大数据
文章平均质量分 53
清水飘落叶
这个作者很懒,什么都没留下…
展开
-
Hudi表类型以及查询方式
1、hudi表类型表类型 支持的查询方式 数据存储格式 Copy on Write (写时复制) 快照查询+增量查询 全量和增量数据均存储为列式parquet格式 Merge on Read (读时合并) 快照查询+增量查询+读取优化查询(近实时) 全量数据存储为列式parquet数据,增量数据存储为行式arvo格式 下面总结了两种表类型之间的权衡权衡 CopyOnWrite MergeOnRead 数据延迟 高...原创 2022-05-27 21:02:55 · 1481 阅读 · 0 评论 -
异常:java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
windows下运行hadoop的程序报错java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.很明显应该是HADOOP_HOME的问题。如果HADOOP_HOME为空,必然fullExeName为null\bin\winutils.exe。解决办法:下载winutils地址https://github.com/srccodes/hadoop-common-2原创 2021-03-02 20:57:52 · 596 阅读 · 1 评论 -
hive数据迁移解决表同步问题
Hive数据迁移方案:先通过shell脚本将集群1中hive的数据导入到hdfs中 将集群1的hdfs中的数据下载在本地 将集群1的本地数据发送到集群2的本地上; 将集群2的本地的数据导入到集群2的hdfs上; 将集群的hdfs上的数据导入到hive中。步骤:1.对集群1节点与集群2节点进行免密登录[root@节点1 .ssh]# ssh-keygen -t rsa[root@节点1 .ssh]# ssh-copy-id 节点2地址[root@ 节点2 .ssh]# ssh..原创 2021-01-28 16:18:58 · 884 阅读 · 0 评论 -
Hadoop数据压缩
1、概述1.1 概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时,I/O操作、网络数据传输、 Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。 鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。可以在任意MapReduce阶段启用压缩。不过,尽管压缩与解压操作的CPU开销不高,其性能的提升...原创 2020-08-14 18:19:55 · 179 阅读 · 0 评论 -
Hadoop小文件优化方法
1、 Hadoop小文件弊端HDFS上每个文件都要在NameNode上创建对应的元数据,这个元数据的大小约为150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,一方面会大量占用NameNode的内存空间,另一方面就是元数据文件过多,使得寻址索引速度变慢。小文件过多,在进行MR计算时,会生成过多切片,需要启动过多的MapTask。每个MapTask处理的数据量小,导致MapTask的处理时间比启动时间还小,白白消耗资源。2、 Hadoop小文件解决方案小文件优化的方向:(1)原创 2020-08-14 17:53:36 · 277 阅读 · 0 评论 -
Hadoop常用的调优参数总结
1、资源相关参数(1)以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml) 配置参数 参数说明 mapreduce.map.memory.mb 一个MapTask可使用的资源上限(单位:MB),默认为1024。如果MapTask实际使用的资源量超过该值,则会被强制杀死。 mapreduce.reduce.memory.mb 一个ReduceTask可使原创 2020-08-14 17:48:46 · 138 阅读 · 1 评论 -
大数据技术生态体系
大数据技术生态体系图中涉及的技术名词解释如下:1)Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。2)Flume:Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;3)Kafka:Kafka是一种高吞原创 2020-08-09 22:28:17 · 138 阅读 · 0 评论