Hadoop Archive小记

最新推荐文章于 2019-05-13 02:56:11 发布

superye1983

最新推荐文章于 2019-05-13 02:56:11 发布

阅读量1.8k

点赞数

分类专栏： hdfs hive hadoop pig

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/superye1983/article/details/8251818

版权

hadoop 同时被 3 个专栏收录

12 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

Hadoop中所有文件的信息都记录在Namenode的内存中

因为Hadoop的设计是处理大数据，理想的数据文件应该是BLOCKSIZE的倍数

为了避免小文件占用过多的系统内容,Hadoop提供了Archive来管理小文件

不过har有可能使用的不是很多，在hive，pig，甚至hadoop中都有一些BUG，很多应用都有问题

在这里做个记录

1.文件夹模糊匹配

在使用hadoop命令查看文件夹的时候hdsf系统上是精确匹配文件夹的，但是在har文件系统中是模糊匹配的，而且即使你带上‘/’作为结尾也没用

2.pig读har文件系统只能指定到具体文件，不能指定到文件夹

使用pig处理数据时，通过PigStorage（‘/abc.har/1.txt’）加载某个文件可以dump出来，但是如果使用PigStorage（‘/abc.har/*’）加载整个目录，程序执行后read 0条记录

我在0.9.2和0.8版本的pig中均失败，网上有说在0.8下能读的，我没成功

3. hive只能读到文件夹，读不到具体的文件

坑爹的，和pig正好相反，首先对应har文件系统建立一张外部表

create external table a(a1 string, a2 string) row format delimited fields terminated by '\t' stored as textfile location 'har:///a/b/';

然后如果你select * from a;这样是没问题的，如果想只取1个字段，select a1 from a;这样就报错了File does not exist

再记录一个

在hive中获取文件名

Hive内置的Virtual Columns中提供了2个常量：INPUT__FILE__NAME, BLOCK__OFFSET__INSIDE__FILE，意思显而易见

INPUT__FILE__NAME获得的是文件路径，使用内置函数处理一下就能得到文件名了

用法select INPUT__FILE__NAME, a1 from a;

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop Archive小记

Hadoop中所有文件的信息都记录在Namenode的内存中因为Hadoop的设计是处理大数据，理想的数据文件应该是BLOCKSIZE的倍数为了避免小文件占用过多的系统内容,Hadoop提供了Archive来管理小文件不过har有可能使用的不是很多，在hive，pig，甚至hadoop中都有一些BUG，很多应用都有问题在这里做个记录1.文件夹模糊匹配在使用hadoop
复制链接

扫一扫

专栏目录

superye1983 CSDN认证博客专家 CSDN认证企业博客

码龄18年

25: 原创

111万+: 周排名

53万+: 总排名

11万+: 访问

: 等级

1411: 积分

6: 粉丝

5: 获赞

9: 评论

6: 收藏

私信

关注

热门文章

分类专栏

hadoop 12篇
pig 4篇
hbase 3篇
hive 3篇
oozie 2篇
sqoop 1篇
hdfs 2篇
mapreduce 1篇
linux 3篇
nexus 1篇
maven 2篇
pentaho 1篇
BI 1篇
cdh5 2篇
protobuf 1篇
impala 1篇
cloudera-manage 1篇
lua
thrift 1篇

最新评论

使用nohup在后台运行scp
楞达吃你: nice
使用rmp包安装impala1.4.1
李斯不怨: 原话”而是在启动文件里写死的jar包名字，所以添加jar包的时候要改名“，那启动文件是哪一个？
Hadoop CDH5 手动安装伪分布式模式
天边tbdp: 你这发的是啥，配置文件没有东西
Hive笔记--安装
jzjie: 我也是醉了，尼玛的各种密码修改问题我草草！最后还是没出来再弄吧！
Hive笔记--安装
人人都能看懂的技术: 在别的机器上测试可以，本机上居然不行。root密码是空，改过来的。可能重启之后就好了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。