hive在实际运行压缩模式中出现的问题

原创 2013年12月05日 15:27:38
问题1:
java.io.IOException: IO error in map input file hdfs://master:8020/tmp/hive-hadoop/hive_2013-12-05_14-11-45_842_4285479348256958995/-ext-10033/000267_0.snappy
	at org.apache.hadoop.mapred.MapTask$TrackedRecordReader.moveToNext(MapTask.java:242)
	at org.apache.hadoop.mapred.MapTask$TrackedRecordReader.next(MapTask.java:216)
	at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:48)
	at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:436)
	at org.apache.hadoop.mapred.MapTask.run(MapTask.java:372)
	at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
	at javax.security.auth.Subject.doAs(Subject.java:396)
	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
	at org.apache.hadoop.mapred.Child.main(Child.java:249)
Caused by: java.io.IOException: java.io.EOFException
	at org.apache.hadoop.hive.io.HiveIOExceptionHandlerChain.handleRecordReaderNextException(HiveIOExceptionHandlerChain.java:121)
	at org.apache.hadoop.hive.io.HiveIOExceptionHandlerUtil.handleRecordReaderNextException(HiveIOExceptionHandlerUtil.java:77)
	at org.apache.hadoop.hive.ql.io.HiveContextAwareRecordReader.doNext(HiveContextAwareRecordReader.java:276)
	at org.apache.hadoop.hive.ql.io.HiveRecordReader.doNext(HiveRecordReader.java:79)
	at org.apache.hadoop.hive.ql.io.HiveRecordReader.doNext(HiveRecordReader.java:33)
	at org.apache.hadoop.hive.ql.io.HiveContextAwareRecordReader.next(HiveContextAwareRecordReader.java:108)
	at org.apache.hadoop.mapred.MapTask$TrackedRecordReader.moveToNext(MapTask.java:236)
	... 8 more
Caused by: java.io.EOFException
	at org.apache.hadoop.io.compress.BlockDecompressorStream.rawReadInt(BlockDecompressorStream.java:126)
	at org.apache.hadoop.io.compress.BlockDecompressorStream.getCompressedData(BlockDecompressorStream.java:98)
	at org.apache.hadoop.io.compress.BlockDecompressorStream.decompress(BlockDecompressorStream.java:82)
	at org.apache.hadoop.io.compress.DecompressorStream.read(DecompressorStream.java:76)
	at java.io.InputStream.read(InputStream.java:82)
	at org.apache.hadoop.util.LineReader.readLine(LineReader.java:134)
	at org.apache.hadoop.mapred.LineRecordReader.next(LineRecordReader.java:133)
	at org.apache.hadoop.mapred.LineRecordReader.next(LineRecordReader.java:38)
	at org.apache.hadoop.hive.ql.io.HiveContextAwareRecordReader.doNext(HiveContextAwareRecordReader.java:274)
	... 12 more

主要是生成几个snappy文件有问题,如下截图:

 

问题2:

有些运行map数变大,如下图:

 

问题3:

数据源有些表采用GZ压缩读取时,是乱码;而采用snappy压缩,读取正常。

 

版权声明:本文为博主原创文章,未经博主允许不得转载。

sqlite数据库的介绍及java操作sqlite

sqlite是啥?1、一种轻型数据库 2、关系型数据库 3、占用资源很低,几百K内存,适合嵌入式设备 4、支持windows、linux、unix 5、可与java、php、c#、python...

lzo的安装及在hadoop中的配置

一、前提 1、gcc的安装:yum install lib* glibc* gcc* 如果lzo编译出错时可能需要安装 2、ant的安装:安装略,最好1.8.2及以上版本,并设置好环境变量 在第三步...
  • zyj8170
  • zyj8170
  • 2011年07月11日 17:02
  • 9555

hive处理实际数据时数据总量的问题

1.背景在下在研究hive时,手上的数据是excel数据转化为txt以后再改为UTF-8编码最后上传的。txt文件有若干个,将它们统一编号使用rz命令上传到linux虚拟机上,放在同一个新建的文件夹下...

hive 数据倾斜实际问题中总结

1.数据倾斜原因 a.大表(2.8G)与小表关联(580K) b.大表(2.8G)与大表(3.0G)关联 首先谈论大表与小表的关联导致数据倾斜问题  实例如下: 大表数据格式: 小...

浅谈Android中MVP模式用于实际项目中的问题与优化

学习MVP不算久,前段时间才把公司的两个项目完全转换为MVP模式,改了下来,略有心得,给大家分享一下。 才开始学习使用MVP时,看到大家说了很多MVP的优点,代码复用,条理清晰等等。不过我改下来发现,...

尝试加载 Oracle 客户端库时引发 BadImageFormatException。如果在安装 32 位 Oracle 客户端组件的情况下以 64 位模式运行,将出现此问题

网上的解决方案很多,这里总结一下 一:修改项目属性 原网页http://blog.itpub.net/29676279/viewspace-1181755/ 将项目配置改为:Any CPU ...

Activity的启动模式解决实际问题

近段时间一直在忙于将eclipse的项目转到as上,哎,转项目真心是累,各种报错一点一滴的去解决,脑袋都大了。刚转完项目就接到新的任务,那就是用户登录app后,长时间不进app检测到token失效后跳...

设计模式的实际应用——在C#中解决单客户端窗口数据并发问题

http://www.uml.org.cn/sjms/201010113.asp 一、 问题引出 在VS2008环境下使用C#语言进行WinForm窗口开发时,大多数情况下我们都会使用...

[置顶] 设计模式-单例模式(Singleton)在Android中的应用场景和实际使用遇到的问题

介绍 在上篇博客中详细说明了各种单例的写法和问题。这篇主要介绍单例在Android开发中的各种应用场景以及和静态类方法的对比考虑,举实际例子说明。 单例的思考 写了这么多单例,都快忘...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:hive在实际运行压缩模式中出现的问题
举报原因:
原因补充:

(最多只允许输入30个字)