Hive Archive合并文件归档，减少小文件数量(推荐)

最新推荐文章于 2023-06-13 22:53:16 发布

张行之

最新推荐文章于 2023-06-13 22:53:16 发布

阅读量1.4k

点赞数 1

分类专栏：大数据文章标签： hive archive 减小文件数量

本文链接：https://blog.csdn.net/qq_33689414/article/details/108520544

版权

大数据专栏收录该内容

84 篇文章 6 订阅

订阅专栏

我们在使用Hive存储时，有时会遇到Hive表的文件大小不大，但是文件数量众多；这是可能会遇到HDFS的储存空间没到阈值，但文件数量超过阈值。如果小文件太多，容易影响整个集群的性能。

那么对于小文件多的问题，有以下处理方法：

1.输出时减少reduce的数量；但可能会导致job运行变慢

2.使用Spark重新读取小文件，修改分区并写入，这里不建议使用repartition()，推荐使用coalesce()

repartition()会增加文件的大小，因为要历经shuffle阶段，但coalesce()不会经历shuffle阶段，数据大小也不会增加

3.使用Hive Archive合并文件归档，会把分区的数据合并成一个.har的文件，使用方式如下（强烈推荐）：

# 设置archive参数
set hive.archive.enabled= true;
set hive.archive.har.parentdir.settable= true;
set har.partfile.size=1099511627776;

# 执行archive
alter table table_name archive PARTITION(dt='${DT}');

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

张行之

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Hive合并小文件的配置项

击水三千里的专栏

04-28

1128

j减少小文件策略：启动压缩, 启动合并，减少map数,shuffle合并,reduce合并,使用HAR归档文件

Hive表小文件合并方法总结

u010585659的博客

10-19

4299

Hive表小文件合并方法总结 Hive表小文件产生原因

1 条评论您还未登录，请先登录后发表或查看评论

hive处理小文件（进行map、reduce、压缩、归档优化解决）

OnTheRoad的博客

12-05

1万+

背景 Hive query将运算好的数据写回hdfs（比如insert into语句），有时候会产生大量的小文件，如果不采用CombineHiveInputFormat就对这些小文件进行操作的话会产生大量的map task，耗费大量集群资源，而且小文件过多会对namenode造成很大压力。所以Hive在正常job执行完之后，会起一个conditional task，来判断是否需要合并小文件，如果...

HIVE ARCHIVE

anti

01-09

4302

HIVE ARCHIVE 由于HDFS的设计，文件系统中的文件数量直接影响namenode中的内存消耗。虽然对于小型集群来说通常不是问题，但是当大于500万到1000万个文件时，内存使用量可能会在单台机器上达到可访问内存的限制。在这种情况下，拥有尽可能少的文件是有利的。 hive中的Archive实际上就是使用Hadoop Archive (HAR)，下边先介绍Hadoop Archive (

python取数据框的几列_python – 从pandas 中的数据框中的所有列输出数据

weixin_28693683的博客

03-02

1363

参见英文答案 > How do I expand the output display to see more columns?14个我有一个名为params.csv的csv文件.我打开了ipython qtconsole并使用以下方法创建了一个pandas数据帧：import pandasparamdata = pan...

python取文件前几列数据

RainMen

08-20

2万+

在平时使用中会遇到这样的情景，一个文件有很多行，很多列，只取出前几列数据，并重新输出到新文件中。今天就写了个简单的python程序来实现这一过程 import os import re input_dir = '' # 批量处理的输入文件夹 output_dir = '' # 批量处理的输出文件夹 for root, dirs, files in os.walk(input_dir):...

Hive 分区归档

sunrising_hill的专栏

05-13

1004

第一次使用分区归档，解决分区下小文件过多的问题：使用步骤： 1 执行：set hive.archive.enabled=true; 2 执行：ALTER TABLE test.users_part ARCHIVE PARTITION(ds='20200401'); 执行第二条SQL时报错： SQL CLI中的报错信息为： hive (test)> ALTER TABLE test.users_part ARCHIVE PARTITION(ds='20200401'); interme.

python提取txt数据指定列_如何使用python从.txt文件中提取两列？

weixin_39609503的博客

11-26

2190

我做了一些计算。我想从数据中提取两列，并用python将它们保存在另一个文件中。在到目前为止，我所做的就是：将文件保存为.txt，然后编写以下脚本：# -*- coding: utf-8 -*-import csvf = open('file.txt')csv_f=csv.reader(f)for row in csv_f:print row[1:3] # to get the second an...

hive小文件合并机制_hive小文件合并

weixin_34008445的博客

12-23

603

hive仓库表数据最终是存储在HDFS上，由于Hadoop的特性，对大文件的处理非常高效。而且大文件可以减少文件元数据信息，减轻NameNode的存储压力。但是在数据仓库中，越是上层的表汇总程度就越高，数据量也就越小，而且这些表通常会有日期分区，随着时间的推移，HDFS的文件数目就会逐步增加。一、小文件带来的问题HDFS的文件包好数据块和元信息，其中元信息包括位置、大小、分块等信息，都保存在Nam...

实际生产中:Hive 合并小文件(强烈建议此法)

weixin_45857425的博客

05-31

1330

背景：实际项目中,小文件的产生会影响hadoop集群的性能;过度使用namenode的内存等;启动过多的map任务,拉低整体Job的运行效率等等弊端

大数据开发之Hive篇14-Hive归档(Archiving)

只是甲的博客

01-07

2153

备注: Hive 版本 2.1.1 文章目录一.Hive归档简介二.Hive 归档操作参考一.Hive归档简介由于HDFS的设计，文件系统中的文件数量直接影响namenode中的内存消耗。虽然对于小型集群来说通常不是问题，但当有5000w -1亿个文件时，单个机器上的内存使用可能会达到可访问内存的极限。在这种情况下，尽可能少的文件是有利的。使用Hadoop Archives是减少分区中文件数量的一种方法。Hive内置了将现有分区中的文件转换为Hadoop Archive (HAR)的支持，这样一个曾经

Hive归档操作命令

热门推荐

龟的小号的博客

12-19

2万+

文件：代码： try: file=open('food.txt',"r") #以读模式打开文件 except FileNotFoundError: #如果文件不存在，给提示 print("file is not found") else: contents=file.readlines() #读取全部行 for conten...

Hive归档分区

bwddd的博客

08-06

1238

Hadoop中有一种存储格式名为Har, 也就是Hadoop Archive(Hadoop归档文件)的简写. 一个HAR文件就想再HDFS文件系统中一个Tar文件一样是一个单独的文件. 不够其内部可以存放多个文件和文件夹. 在一些使用场景下, 较旧的文件夹和文件比较新的文件夹和文件访问概率要低很多. 如果某个特定分区下保存的成千上万的话,那么就需要 hdfs中的NameNode消耗非常大的代价来管...

linux根据列提取全行的内容,linux提取指定列字符并打印所有内容（awk）

weixin_34445112的博客

05-11

398

假设有文件长如下样子：CHROM POS ID REF ALT QUAL FILTER INFO FORMAT samplename1 3552841 . G . 32.995 . DP=1;MQ0F=0;AF1=0;AC1=0;DP4=1,0,0,0;MQ=40;FQ=-29.9912 GT:PL:DP 0/0:0:11 3552842 . T...

awk如何取出它的每一行和某一列的某个元素

bang152101的博客

01-20

1968

我自己举例吧： NR==2，指定第二行，NR（Number of Record，记录数，awk中默认一行为一个记录） print $3，打印第三列最后输出第二行第三列的元素。 ============================================================= awk进行列求和【awk '{a+= $0}END{print a}'】： ...

Hive优化【提高效率，减少资源浪费等】

lyq7269的博客

07-21

1952

一、谨慎使用API 大数据场景下，必然是有大量的数据，因此大数据场景下并不怕数据量大，不行可多开几个节点，用以存储。但是大数据场景下，害怕的是数据倾斜，如果使用不当API，很容易造成数据倾斜问题。容易数据倾斜情况 group by 不和聚集函数搭配使用的时候 count(distinct)，在数据量大的情况下，容易数据倾斜，因为 count(distinct)是按 group by 字段分组，按 distinct 字段排序小表关联超大表 join 产生数据倾斜的原因 key 分布不均匀业务数据本

awk正则表达式是贪婪匹配，以及复习Python正则表达式re

HayPinF的博客

07-23

428

举个例子：对/etc/passwd的第20行到第25行，当指定[*:/]+ 作为分隔符时会贪婪匹配 :*:与 :/ 为一个间隔符，而在指定 [*:/] 作为分割符时只会分别将 :*: 匹配成3个分隔符， :/ 匹配成2个分隔符。 (venv_mac) ⚙ haypin@HaypinsMBP  ~/PycProj  awk -F ':' '{if (NR>=20 && NR<=25) print $0}' /etc/passwd _scsd:*:31:31:...

python awk 读文件_使用awk处理文本

weixin_39960116的博客

12-04

509

在Liux下我们经常需要对一些文本文档做一些处理，尤其像从日志里提取一些数据，这是我们一般会用awk工具和sed工具去实现需求，这里对awk的入门使用简单记录。awk可以看作一种文本处理工具，一种专注数据操作的编程语言，一个数据处理引擎。其名字来源于三个发明者的姓名首字母。一般在Liux下使用的awk是gawk(gnu awk)。入门awk把文本文档看作是数据库，每一行看作一条数据库中的记录，可以...