java读写orc文件_java读取hive的orc文件

最新推荐文章于 2023-03-24 09:51:50 发布

weixin_39626927

最新推荐文章于 2023-03-24 09:51:50 发布

阅读量648

点赞数

文章标签： java读写orc文件

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39626927/article/details/114721586

版权

这篇博客介绍了如何使用Java实现一个Hive UDF（用户定义函数），该函数读取HDFS上的ORC文件，并通过匹配字段进行数据转换。示例代码展示了从ORC文件中读取数据并构建数据映射的过程。

摘要由CSDN通过智能技术生成

hive API2

hive udf 读取HDFS的orc文件

package hive_udf_province;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.hive.ql.exec.UDF;

import org.apache.hadoop.hive.ql.io.orc.OrcFile;

import org.apache.hadoop.hive.ql.io.orc.Reader;

import org.apache.hadoop.hive.ql.io.orc.RecordReader;

import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;

import java.io.IOException;

import java.net.URI;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

/**

* Created by Administrator on 2017/11/7.s

* API2

* 参数为需要兑换表的字段，去跟码表的第一个字段去匹配，兑换出码表的第二个字段

*/

public class UDF_province_name_orc_2 extends UDF {

public static String evaluate(String pro_id) throws IOException {

String INPUT = "/user/hive/warehouse/yl.db/dim_province_orc/000000_0";

Configuration conf = new Configuration();

Path file_in = new Path(INPUT);

Reader reader = OrcFile.createReader(FileSystem.get(URI.create(INPUT), conf), file_in);

StructObjectInspector inspector = (StructObjectInspector) reader.getObjectInspector();

RecordReader records = reader.rows();

Object row = null;

Map datamap = new HashMap();

while (records.hasNext()) {

row = records.next(row);

List value_lst = inspector.getStructFieldsDataAsList(row);

datamap.put(value_lst.get(0).toString(),value_lst.get(1).toString());

}

return datamap.get(pro_id);

}

}

hive

add jar /root/yl/orc11.jar;

create temporary function split_province_orc as 'hive_udf_province.UDF_province_name_orc2';

select split_province_orc(province_id) from yl.province_test;

weixin_39626927

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
java读写orc文件_java读取hive的orc文件

hive API2hive udf 读取HDFS的orc文件package hive_udf_province;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hiv...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。