使用hive+hbase做数据分析

最新推荐文章于 2024-05-24 14:15:52 发布

sun eclipse

最新推荐文章于 2024-05-24 14:15:52 发布

阅读量4.9k

点赞数 3

分类专栏：大数据hive+hbase+mysql 文章标签： hive实战 hbase实战大数据分析数据分析流程介绍

本文链接：https://blog.csdn.net/qq_42165156/article/details/92795069

版权

数据来源：中国软件杯—基于互联网大数据的招聘数据智能分析平台
使用工具：eclipse
环境搭建：hadoop，hive，mysql，hbase，tomcat
博客只做数据分析的流程与方法介绍，代码还在完善中，所以不做提供

闲话不多说，直接展示效果图
数据分析首页
数据分析搜索页

1.数据清洗

拿到数据集后发现数据并不是很规整，需要做一些处理，比如说去除制表符，去空或者是换行符等等，这里的处理方法比较简单，可以使用python或是java快速清洗处理。

2.数据分析（hive分析处理）

UDF分析：

UDF也就是用户自定义的函数，用于HiveQL语句中，HiveQL使用方法与Mysql类似
使用UDF做数据分析：（这里给出行键与薪资分类的方法）
1. 行键UDF的使用：

package com.org.udf;

import org.apache.hadoop.hive.ql.exec.UDF;

public class get_rowkey extends UDF {

    public String evaluate(int i,String key) {
        long get_currentTimeMillis =System.currentTimeMillis();//获取当前时间的时间戳
        long timestamp =get_currentTimeMillis+i;//参数i作为自增数，防止时间戳相同
        String rowkey = timestamp+key;//参数key作为行键识别字符串，用于hbase的行键过滤器
        return rowkey;
    }
}

注意：类需要继承UDF，重写evaluate方法，在hiveql中自定义函数入口就是evaluate方法
使用eclipse打包，右键点击UDF的文件，选择Export

最低0.47元/天解锁文章

sun eclipse

关注

3
点赞
踩
45

收藏

觉得还不错? 一键收藏
4
评论
使用hive+hbase做数据分析

数据来源：中国软件杯—基于互联网大数据的招聘数据智能分析平台使用工具：eclipse环境搭建：hadoop，hive，mysql，hbase，tomcat博客只做数据分析的流程与方法介绍，代码还在完善中，所以不做提供闲话不多说，直接展示效果图1.数据清洗拿到数据集后发现数据并不是很规整，需要做一些处理，比如说去除制表符，去空或者是换行符等等，这里的处理方法比较简单，可以使用pyth...
复制链接

扫一扫