Hadoop Archive小记

4 篇文章 0 订阅
3 篇文章 0 订阅

Hadoop中所有文件的信息都记录在Namenode的内存中

因为Hadoop的设计是处理大数据,理想的数据文件应该是BLOCKSIZE的倍数

为了避免小文件占用过多的系统内容,Hadoop提供了Archive来管理小文件

不过har有可能使用的不是很多,在hive,pig,甚至hadoop中都有一些BUG,很多应用都有问题

在这里做个记录

1.文件夹模糊匹配

   在使用hadoop命令查看文件夹的时候hdsf系统上是精确匹配文件夹的,但是在har文件系统中是模糊匹配的,而且即使你带上‘/’作为结尾也没用

2.pig读har文件系统只能指定到具体文件,不能指定到文件夹

   使用pig处理数据时,通过PigStorage(‘/abc.har/1.txt’)加载某个文件可以dump出来,但是如果使用PigStorage(‘/abc.har/*’)加载整个目录,程序执行后read 0条记录

   我在0.9.2和0.8版本的pig中均失败,网上有说在0.8下能读的,我没成功

3. hive只能读到文件夹,读不到具体的文件

    坑爹的,和pig正好相反,首先对应har文件系统建立一张外部表

    create external table a(a1 string, a2 string) row format delimited fields terminated by '\t' stored as textfile location 'har:///a/b/';

    然后如果你select * from a;这样是没问题的,如果想只取1个字段,select a1 from a;这样就报错了File does not exist


再记录一个

在hive中获取文件名

Hive内置的Virtual Columns中提供了2个常量:INPUT__FILE__NAME, BLOCK__OFFSET__INSIDE__FILE,意思显而易见

INPUT__FILE__NAME获得的是文件路径,使用内置函数处理一下就能得到文件名了

用法select INPUT__FILE__NAME, a1 from a;

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值