MapReduce
文章平均质量分 83
BIT_666
天道酬勤,厚积薄发
展开
-
Spark/Scala - 读取 RcFile && OrcFile
上文提到了MapReduce - 读取 OrcFile, RcFile 文件,这里通过 Java + MapReduce 实现了读取 RcFile 和 OrcFile 文件,后续又遇到MapReduce - 同时读取 RcFile 和 OrcFile 的依赖冲突,也顺利解决,但是平常开发还是习惯 spark 所以改用 spark 实现读取 OrcFile 和 RcFile 以及 Map-Reduce 的功能。......原创 2022-04-21 08:14:53 · 1523 阅读 · 2 评论 -
MapReduce - 读取 ORC, RcFile 文件
一.引言MR 任务处理相关 hive 表数据时格式为 orc 和 rcFile,下面记录两种处理方法。二.偷懒版读取 ORC,RcFile 文件最初不太熟悉 mr,只会 textFormat 一种输入模式,于是遇到 orc 和 rcFile 形式的 hive 数据需要在 mr 读取时,都是先通过 INSERTOVERWRITEDIRECTORY 将 hive 表重新输出一份 hdfs 的 text 数据,随后用 mr 读取该 text 文件,该方法适合偷懒且原始 hive 数据不大,..原创 2022-04-19 11:21:16 · 2465 阅读 · 2 评论 -
Java - MR 读写 orc 之 NoSuchMethodError: hive.ql.exec.vector.VectorizedRowBatch.getMaxSize()
一.引言上一篇文章提到了 Java map-reduce 如何单独读取 ORC 文件以及 RcFile 文件,在同一个 MR 任务下分别读取 RcFile 以及 ORC 文件时,报如下错误:java.lang.NoSuchMethodError: org.apache.hadoop.hive.ql.exec.vector.VectorizedRowBatch.getMaxSize()I。完整的异常栈如下:2022-04-20 06:44:47,326 FATAL [main] org.apach.原创 2022-04-20 15:50:49 · 2594 阅读 · 0 评论