hive在实际运行压缩模式中出现的问题

原创 2013年12月05日 15:27:38
问题1:
java.io.IOException: IO error in map input file hdfs://master:8020/tmp/hive-hadoop/hive_2013-12-05_14-11-45_842_4285479348256958995/-ext-10033/000267_0.snappy
	at org.apache.hadoop.mapred.MapTask$TrackedRecordReader.moveToNext(MapTask.java:242)
	at org.apache.hadoop.mapred.MapTask$TrackedRecordReader.next(MapTask.java:216)
	at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:48)
	at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:436)
	at org.apache.hadoop.mapred.MapTask.run(MapTask.java:372)
	at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
	at javax.security.auth.Subject.doAs(Subject.java:396)
	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
	at org.apache.hadoop.mapred.Child.main(Child.java:249)
Caused by: java.io.IOException: java.io.EOFException
	at org.apache.hadoop.hive.io.HiveIOExceptionHandlerChain.handleRecordReaderNextException(HiveIOExceptionHandlerChain.java:121)
	at org.apache.hadoop.hive.io.HiveIOExceptionHandlerUtil.handleRecordReaderNextException(HiveIOExceptionHandlerUtil.java:77)
	at org.apache.hadoop.hive.ql.io.HiveContextAwareRecordReader.doNext(HiveContextAwareRecordReader.java:276)
	at org.apache.hadoop.hive.ql.io.HiveRecordReader.doNext(HiveRecordReader.java:79)
	at org.apache.hadoop.hive.ql.io.HiveRecordReader.doNext(HiveRecordReader.java:33)
	at org.apache.hadoop.hive.ql.io.HiveContextAwareRecordReader.next(HiveContextAwareRecordReader.java:108)
	at org.apache.hadoop.mapred.MapTask$TrackedRecordReader.moveToNext(MapTask.java:236)
	... 8 more
Caused by: java.io.EOFException
	at org.apache.hadoop.io.compress.BlockDecompressorStream.rawReadInt(BlockDecompressorStream.java:126)
	at org.apache.hadoop.io.compress.BlockDecompressorStream.getCompressedData(BlockDecompressorStream.java:98)
	at org.apache.hadoop.io.compress.BlockDecompressorStream.decompress(BlockDecompressorStream.java:82)
	at org.apache.hadoop.io.compress.DecompressorStream.read(DecompressorStream.java:76)
	at java.io.InputStream.read(InputStream.java:82)
	at org.apache.hadoop.util.LineReader.readLine(LineReader.java:134)
	at org.apache.hadoop.mapred.LineRecordReader.next(LineRecordReader.java:133)
	at org.apache.hadoop.mapred.LineRecordReader.next(LineRecordReader.java:38)
	at org.apache.hadoop.hive.ql.io.HiveContextAwareRecordReader.doNext(HiveContextAwareRecordReader.java:274)
	... 12 more

主要是生成几个snappy文件有问题,如下截图:

 

问题2:

有些运行map数变大,如下图:

 

问题3:

数据源有些表采用GZ压缩读取时,是乱码;而采用snappy压缩,读取正常。

 

版权声明:本文为博主原创文章,未经博主允许不得转载。

hive和hbase集成异常

一、偶尔出现两个异常 Error: java.lang.IllegalArgumentException: Illegal character code:-1, at 0. User-space t...
  • linux_ja
  • linux_ja
  • 2016年07月19日 16:51
  • 1984

hadoop平台读取文件报错

背景: 生产环境有个脚本执行读取st层表数据时出现IO错误,查看表目录下的文件,都是压缩后的文件。详细信息如下: Task with the most failures(4): -----...
  • lili72
  • lili72
  • 2014年12月08日 22:19
  • 3644

认识org.apache.hadoop.io.compress解码器/编码器

认识org.apache.hadoop.io.compress解码器/编码器 编码器和解码器用以执行压缩解压算法。在Hadoop里,编码/解码器是通过一个压缩解码器接口实现的。因此,例如,G...
  • u012875880
  • u012875880
  • 2014年03月23日 15:28
  • 1785

通过hadoop实现单词的统计,并将统计结果保存到Hbase以及错误排解:org.apache.hadoop.io.compress.SnappyCodec not found

通过hadoop实现单词的统计,并将统计结果保存到Hbase以及错误排解:java.lang.ClassNotFoundException: org.apache.hadoop.io.compress...
  • dalaoadalaoa
  • dalaoadalaoa
  • 2015年03月12日 17:02
  • 1677

hive中的支持的存储格式和压缩格式

一、存储格式hive默认支持三种从存储格式,当然用户根据需要可以自定义存储格式。 存储格式 优点 缺点 SEQUENCEFILE 可压缩可分割二进制文件 需要一个合...
  • csliuruidongdn
  • csliuruidongdn
  • 2013年03月01日 16:17
  • 1193

hive开启本地模式执行

先讲一个hive使用的一个小技巧。对于使用惯了oracle数据库的人来说,hive中没有dual啊,想验证一些函数的执行结果很是麻烦。 比如我们在oracle数据库里面可以写select (1+2)...
  • xiao_jun_0820
  • xiao_jun_0820
  • 2015年01月06日 17:32
  • 5049

Class org.apache.hadoop.io.compress.BZip2Codec not found

java.lang.ClassNotFoundException: Class org.apache.hadoop.io.compress.BZip2Codec not found 要记住,...
  • ubuntu_yanglei
  • ubuntu_yanglei
  • 2016年05月09日 11:36
  • 790

hadoop安装遇到的各种异常及解决办法

2014-03-13 11:10:23,665 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: Linux-hadoop-...
  • wodeyuer125
  • wodeyuer125
  • 2014年03月21日 01:31
  • 4995

hive的压缩设置

压缩配置:   map/reduce 输出压缩(一般采用序列化文件存储) set hive.exec.compress.output=true; set mapred.output.co...
  • djd1234567
  • djd1234567
  • 2016年06月03日 19:51
  • 3291

hive 压缩参数

压缩考虑 第一 压缩率      第二 压缩/解压缩时间(cpu开销) 第三 是否支持切分 对以上三个问题说明 BZip2的压缩率最高,消耗的cpu资源也最多,支持分割 Gzi...
  • KNIFE_PAN
  • KNIFE_PAN
  • 2015年03月09日 15:50
  • 1224
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:hive在实际运行压缩模式中出现的问题
举报原因:
原因补充:

(最多只允许输入30个字)