
大数据
文章平均质量分 89
晓之木初
船到桥头自然直,前提是你努力过!
展开
-
解决File has reached the limit on maximum number of blocks的问题
lineitem.tbl是一个大概2.3T的大文件,因为怀疑是文件太大无法上传通过查看其它数据的HDFS目录发现,通过向Hive表导入数据时,其实是直接将文件copy到对应的HDFS目录因此,想直接通过直接将lineitem.tbl上传到对应的HDFS目录上传过程中,直接提示文件block数超过最大的block数,对应的配置项为2. 使用split进行文件分割2.1 确认HDFS配置看到报错信息后,首先想到的就是确认的值命名如下:执行结果为1048576,根本不是报错信息中的说的100原创 2022-06-04 20:45:00 · 1792 阅读 · 1 评论 -
Hive导入TPC-H数据集(待补充)
guhgiugv原创 2022-05-30 10:24:50 · 915 阅读 · 1 评论 -
借助hive命令或ORC官网的Java Tools查看ORC文件的元数据
1. 絮絮叨叨Apache ORC官网,把ORC文件的结构讲的那么精妙,甚至让人云里雾里如果不借助工具查看ORC文件的元数据或者阅读源码,你可能无法在脑海中形成ORC文件结构本文将基于一张前10列加密、后10列不加密的Hive表test.tmp_hgs_orc_xxx,介绍如何查看ORC文件的元数据,以帮助大家更好地理解ORC文件的存储结构很多方式都可以查看ORC文件的元数据,本文将介绍hive命令和Java Tools两种方式官网在Spark DDL和C++ Tools部分,也介绍了如何查看O原创 2022-04-04 00:37:30 · 6735 阅读 · 0 评论