02-sparksql Malformed ORC file、Invalid postscript.

最新推荐文章于 2022-03-22 15:52:30 发布

踩大侠

最新推荐文章于 2022-03-22 15:52:30 发布

阅读量1k

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/liu82327114/article/details/80231031

版权

spark 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

  异常重要log： 

  Caused by: java.sql.SQLException: org.apache.spark.SparkException: Job aborted due to stage failure: Task 33 in stage 520.0 failed 4 times, most recent failure: Lost task 33.3 in stage 520.0 (TID 196862, node22.tj.leap.com): java.io.IOException: Malformed ORC file hdfs://tjleap/apps/hive/warehouse/d_pc_ace.db/smart_tv_lex_dashboard_pvuv_datahub_temp/import_date=2018-05-06/pvuv_index_part_39.txt. Invalid postscript. 

  原因： 

  由于数据量太大，为了缓解大数据平台存储压力，故将表的默认存储格式改为orc 

 
 hive.default.fileformat 
 =Orc；但是 

 
 ORC格式是列式存储的表，不能直接从本地文件导入数据，只有当数据源也是ORC格式存储时，才可以直接加载，否则会出现上述报错。 

 
 解决办法： 

 
 要么将数据源表改为以ORC格式存储的表，要么新建一个以textfile格式的临时表先将源文件数据加载到该表，然后在从textfile表中insert数据到ORC目标表中。 

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

踩大侠

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

platform-tools-r34.0.1-windows.zip.7z

04-24

34.0.1 (March 2023): ...Windows: Fixed "mke2fs: Illegal or malformed device name while trying to determine filesystem size" error introduced in Platform tools 34.0.0 (issue #271039230).

Hive数据仓库ORC格式数据

Joseph25的博客

08-13

1144

Failed with exception java.io.IOException:java.io.IOException: Malformed ORC file 且 Caused by: java.io.IOException: Malformed ORC file hdfs://master.hadoop:8020/user/hive/warehouse/shopcn_prod Inval...

参与评论您还未登录，请先登录后发表或查看评论

【Hive】Hive查询报错 Malformed ORC file、Invalid postscript、serious problem

可乐

09-01

2006

报错1： [2020-09-01 20:27:48] hive:Failed with exception java.io.IOException:java.lang.RuntimeException: serious problem [2020-09-01 20:27:48] hive:Time taken: 3.237 seconds [2020-09-01 20:27:50] job失败！报错2： [2020-09-01 21:00:35]-Failed with exception java.i

spark ORC原理

u010990043的博客

09-25

6787

orc历史 ORC的全称是(Optimized Row Columnar)，ORC文件格式是一种Hadoop生态圈中的列式存储格式，它的产生早在2013年初，最初产生自Apache Hive，用于降低Hadoop数据存储空间和加速Hive查询速度。 orc结构–----hdfs上的物理视图 orc结构----逻辑视图 orc存储结构解析 orc文件有如下结构快：b...

Caused by: org.apache.orc.FileFormatException: Malformed ORC file

weixin_50117649的博客

08-12

2167

Caused by: org.apache.orc.FileFormatException: Malformed ORC file hdfs://ShareSdkHadoop/day=20210812/20210812000000.lzo. Invalid postscript length 0 解决：spark.sql(“set spark.sql.hive.convertMetastoreOrc = false”)

Hive报错整理02

qq_33536353的博客

03-17

1411

Malformed ORC file hdfs://XXX. Invalid postscript.Diagnostic

Malformed Request(解决方案).md

热门推荐

qq_33536353的博客

03-24

1万+

java.io.IOException: Malformed ORC file

Presto读Hive报错： Malformed ORC file. Cannot read SQL type ‘tinyint‘ from ORC stream...

lilyjoke的专栏

03-22

5163

向社区提了个Issue： Malformed ORC file. Cannot read SQL type 'boolean' from ORC stream '.illegal' of type INT with attributes · Issue #11428 · trinodb/trino (github.com) 跟了代码之后，这样改了，实测是能解决了，也用到生产环境了。但是不一定能合到社区，发出来，给可能有类似问题的同学做下参考，抛砖引玉吧： Support 8-bit field typ

报错Failed with exception java.io.IOException:java.io.IOException: Malformed ORC file ....

qq_43368947的博客

07-06

1858

问题描述在用 sqoop 拉取 mysql 中的数据到 hive 的 ods 层的时候，报错以下内容原因在于在hive中创建表格的时候,格式是ORC，而在导入数据的时候,文本文件却非ORC格式的。 ORC格式是列式存储的表，不能直接从本地文件导入数据，只有当数据源表也是ORC格式存储时，才可以直接加载，否则会出现上述报错。解决方案 1.将ORC格式的表删除换成textfile存储格式的表即可。 2.先创建一个以textfile格式的临时表先将源文件数据加载到该表，然后再从textfile表中i

hive报错之Malformed ORC file Invalid postscript.

louzhu_lz的博客

07-24

4563

Caused by: java.io.IOException: Malformed ORC file 将本地文件的数据加载到hive的ORC格式表时，出现类似于以上报错原因： ORC格式是列式存储的表，不能直接从本地文件导入数据，只有当数据源表也是ORC格式存储时，才可以直接加载，否则会出现上述报错。解决办法：要么将数据源表改为以ORC格式存储的表，要么新建一个以textfile格式的临时表...

spark读取hive数据的两种方式

qq_42213403的博客

06-04

1万+

spark读取hive数据常用的有两种方式一是通过访问hive metastore的方式，这种方式通过访问hive的metastore元数据的方式获取表结构信息和该表数据所存放的HDFS路径，这种方式的特点是效率高、数据量大、使用spark操作起来更加友好。二是通过spark jdbc的方式访问，就是通过链接hiveserver2的方式获取数据,这种方式底层大题上跟spark链接其他rdbms上一样，可以采用sql的方式先在其数据库中查询出来结果再获取其结果数据，这样大部分数据计算的压力就放在了数.

Hive ORC文件格式存储与测试（Malformed ORC file解决）

大数据挖掘SparkExpert的博客

12-06

9302

Hive本身支持好多种数据格式，其中OrcFile是当前压缩比最大的一个。因此进行该方面的实践。采用建表过程中，直接：stored as orc，就可以指定。然而用传统文本文件导入的方式，再进行查询测试，如select count(*) from table XX. 则会出现：Failed with exception java.io.IOException:java.

Hive报错整理之Malformed ORC file 、Invalid postscript.

weixin_34007020的博客

09-14

1240

Caused by: java.io.IOException: Malformed ORC file 将本地文件的数据加载到hive的ORC格式表时，出现以下报错： Diagnostic Messages for this Task: Error: java.io.IOException: java.lang.reflect.Invoca...

pandas.errors.parsererror: error tokenizing data. c error: buffer overflow caught - possible malformed input file.

06-06

这是一个 pandas 解析错误，错误信息为："错误令牌化数据。C 错误：捕获缓冲区溢出 - 可能是格式错误的输入文件。"。这通常表示数据文件存在格式问题，导致 pandas 无法解析它。您可以检查您的数据文件以确保它具有正确的格式。如果问题仍然存在，您可以尝试使用不同的解析方法或转换数据文件以更适合 pandas 解析的格式。