Orc是Hive特有的一种列式存储的文件格式,它有着非常高的压缩比和读取效率,因此很快取代了之前的RCFile,成为Hive中非常常用的一种文件格式。
在实际业务场景中,可能需要使用Java API,或者MapReduce读写Orc文件。
本文先介绍使用Java API读取Hive Orc文件。
在Hive中已有一张Orc格式存储的表lxw1234:
该表有四个字段:url、word、freq、weight,类型均为string;
数据只有5条:
下面的代码,从表lxw1234对应的HDFS路径中使用API直接读取Orc文件:
- package com.lxw1234.test;
- import java.util.List;
- import java.util.Properties;
- import org.apache.hadoop.fs.Path;
- import org.apache.hadoop.hive.ql.io.o