Hive实例-解析百万json以及python脚本的使用

最新推荐文章于 2021-01-18 22:08:45 发布

喜讯XiCent

最新推荐文章于 2021-01-18 22:08:45 发布

阅读量1.1k

点赞数

分类专栏： hadoop 文章标签： hive hadoop 大数据

本文链接：https://blog.csdn.net/qq_42194171/article/details/104253657

版权

hadoop 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

实例

    使用UDF解析一百万条json并按字段插入表中
1. 编写UDF

public class MovieJsonParser extends UDF {

    public String evaluate(String json) throws IOException {
        ObjectMapper objectMapper = new ObjectMapper();
        MovieBean movieBean = objectMapper.readValue(json, MovieBean.class);
        return movieBean.toString();
    }

}

其中movie bean为

public class MovieBean {
    private String movie;
    private String rate;
    private String timeStamp;
    private String uid;

    @Override
    public String toString() {
        return movie 
                ","   rate  
                ","   timeStamp "," uid;
    }
}

2.打成jar包并加入到hive的classpath中

add JAR /home/hadoop/moviejsonparser.jar

3.创建函数

create temporary function jsonparser as 'com.kris.bigdata.hive.udf.MovieJsonParser';

4.创建json表，并载入数据

create table t_movie_json(json string);

load data local inpath '/home/hadoop/rating.json' overwrite into table t_movie_json;

看看表里的数据

5.创建解析后插入的表

create table t_movie_rating(movie string,rate string,unixtime string,uid string)
row format delimited
fields terminated by ',';

6.解析并插入到新表

==使用我们前面创建的UDF函数，解析json，输出固定格式字符串，对字符串进行切割取对应值==

insert into t_movie_rating
select split(moviejsonparser(json),',')[0],split(moviejsonparser(json),',')[1],split(moviejsonparser(json),',')[2],split(moviejsonparser(json),',')[3] from t_movie_json;

看看数据插入后是什么样

番外-内置json函数

==hive中内置了json解析函数，但是只能解析单层的json对象，对于比较复杂的json，还是需要自己写UDF进行解析。==

select get_json_object(json,'$.movie') as movie,get_json_object(json,'$.rate') as rate from t_movie_json limit 10;

Transform实现

    使用TRANSFORM关键字，我们可以在SQL中调用我们自己写的脚本。
    适合于Hive没有的功能，又不想写UDF的情况。

    下面我们用一个python脚本实现将查询出来的unixtime转为易于查看的weekday

1.首先编写一个python脚本

vi weekday_mapper.py

#!/bin/python
import sys
import datetime

#遍历输入的每一行
for line in sys.stdin:
    #去掉首尾空格
    line = line.strip();
    #切割每一行，拿到每个值
    movieid,rating,unixtime,userid = line.split('\t')
    #转换unixtime为weekday。具体过程是先将unixtime强转为float，然后将float转换为datetime，然后调用datetime的isoweekday()方法获得weekday
    weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday()
    #输出数据，用\t相隔
    print '\t'.join([movieid,rating,str(weekday),userid])

2.将文件加入hive的classpath

add FILE /home/hadoop/weekday.py;

3.使用脚本转换unixtime并插入新表

CREATE TABLE u_data_new as
SELECT
TRANSFORM (movieid,rate,unixtime,uid)
USING 'python weekday.py'
AS (movieid,rate,weekday,uid)
FROM t_movie_rating;

==记得一定要大写呀！！！！！！坑了我两天==

这样就拿到了对应的星期啦～

喜欢就关注公众号:喜讯XiCent

喜讯XiCent

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive实例-解析百万json以及python脚本的使用

实例使用UDF解析一百万条json并按字段插入表中1. 编写UDFpublic class MovieJsonParser extends UDF { public String evaluate(String json) throws IOException { ObjectMapper objectMapper = new ObjectMapper...
复制链接

扫一扫