hive接入多数据源

本文介绍了如何使用Hive接入JSON、MongoDB和CSV数据源。对于JSON,推荐使用org.openx.data.jsonserde.JsonSerDe以支持错误处理和字段映射。MongoDB接入可通过直接连接或BSON文件,需注意jar包版本选择。CSV文件接入需指定适合的SerDe处理带引号的字段。
摘要由CSDN通过智能技术生成

 

目录

一、接入JSON格式文件

二、接入mongodb数据

三、接入CSV文件


一、接入JSON格式文件

经常会有接口返回json格式数据,或者json格式日志文件需要接入到hive中

导入相应jar包来序列反序列化(SerDe)来解析json格式

add jar hive-hcatalog-core-0.13.0.jar

CREATE external TABLE IF NOT EXISTS schema.table_name
(
  distinct_id string,
  lib map<
    string,string 
  >,
  properties struct<
    `$browser`: string,
    act_id: string
  >,
  time bigint
)
partitioned by (ds string comment '日期分区,yyyy-MM-dd格式')
ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'
-- ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
STORED AS TEXTFILE;

建表时,不需要写json和表字段的mapping,只需要保持字段名和json对象的key一致即可,顺序无所谓,否则解析出来值为null,所以即使建表时有json中不存在的key也可以,只不过值是null。对于json的key包含特殊字符在建表时加上`符号,例如`$column`、`_id`。

上述org.apache.hive.hcatalog.data.JsonSerDe 不支持忽略格式错误数据和字段映射

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值