大数据之Hive详细介绍

最新推荐文章于 2024-01-14 11:28:18 发布

蓝胖子的宝贝

最新推荐文章于 2024-01-14 11:28:18 发布

阅读量412

点赞数

分类专栏：大数据技术分享文章标签： hive 大数据 hadoop

本文链接：https://blog.csdn.net/qq_42588609/article/details/130608402

版权

大数据技术分享专栏收录该内容

13 篇文章 0 订阅

订阅专栏

Hive是一个用于大数据处理的工具，它提供类似SQL的查询语言HiveQL，允许开发人员对Hadoop的HDFS上的结构化数据进行查询和分析。Hive的架构包括用户接口、查询编译和执行引擎三层，支持自定义函数(UDF,UDAF,UDTF)，但查询速度较慢且不支持实时查询和事务。

摘要由CSDN通过智能技术生成

Hive是一个基于Hadoop的数据仓库工具，它提供了类似于SQL的查询语言HiveQL，可以将结构化数据映射到Hadoop的分布式文件系统HDFS上进行查询和分析。Hive的出现使得那些熟悉SQL语言的开发人员可以更加方便地使用Hadoop进行数据处理和分析。

Hive的架构

Hive的架构分为三层：用户接口层、查询编译层和执行引擎层。

用户接口层

用户接口层提供了多种接口，包括命令行、Web UI和JDBC/ODBC接口等，方便用户进行数据查询和分析。

查询编译层

查询编译层主要负责将HiveQL语句转换成MapReduce任务，包括语法解析、语义分析、优化和物理计划生成等。

执行引擎层

执行引擎层负责执行MapReduce任务，包括任务的提交、监控和结果的返回等。

Hive的数据模型

Hive的数据模型是基于表的，每个表都有一个定义表结构的元数据，包括表名、列名、数据类型、分区等信息。Hive支持的数据类型包括基本数据类型、复合数据类型和集合数据类型等。

Hive的查询语言

Hive的查询语言HiveQL类似于SQL语言，支持SELECT、FROM、WHERE、GROUP BY、ORDER BY等关键字，同时也支持JOIN、UNION、SUBQUERY等高级语法。HiveQL语句会被转换成MapReduce任务进行执行，因此Hive的查询速度相对较慢，但是可以处理大规模的数据。

Hive的优点

易于学习和使用：Hive的查询语言类似于SQL语言，对于那些熟悉SQL语言的开发人员来说，学习和使用Hive非常容易。
处理大规模数据：Hive可以处理大规模的数据，因为它是基于Hadoop的分布式文件系统HDFS进行存储和处理的。
可扩展性强：Hive的架构是基于Hadoop的，因此可以很容易地进行扩展和集成。
支持多种数据源：Hive可以支持多种数据源，包括HDFS、HBase、JDBC等。

Hive的缺点

查询速度较慢：Hive的查询语句会被转换成MapReduce任务进行执行，因此查询速度相对较慢。
不支持实时查询：Hive不支持实时查询，因为它是基于Hadoop的批处理模式进行处理的。
不支持事务：Hive不支持事务，因此在数据更新和删除等操作上存在一定的局限性。

常见的UDF函数及其使用

内置函数

Hive内置了许多常用的函数，如数学函数、字符串函数、日期函数等。这些函数可以直接在Hive中使用，无需额外定义。例如：

数学函数：abs、sin、cos、tan、log、exp等
字符串函数：concat、substring、trim、lower、upper等
日期函数：year、month、day、hour、minute、second等

使用方法如下：

SELECT abs(-10), concat('hello', 'world'), year('2022-01-01') FROM table;

自定义函数

除了内置函数，Hive还支持自定义函数。自定义函数可以是Java、Python等语言编写的UDF、UDAF（User-Defined Aggregation Functions）或UDTF（User-Defined Table-Generating Functions）。其中，UDF用于处理单行数据，UDAF用于处理分组数据，UDTF用于生成表格数据。

以Java为例，编写一个简单的UDF函数，实现将字符串转换为大写：

package com.example.hive.udf;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

public class UpperCase extends UDF {
    public Text evaluate(Text str) {
        if (str == null) {
            return null;
        }
        return new Text(str.toString().toUpperCase());
    }
}

编译并打包成jar文件，上传到Hive的classpath路径下。然后在Hive中注册该函数：

ADD JAR /path/to/udf.jar;
CREATE TEMPORARY FUNCTION upper_case AS 'com.example.hive.udf.UpperCase';

使用该函数：

SELECT upper_case('hello world') FROM table;

UDAF函数

UDAF函数用于处理分组数据，例如计算平均值、最大值、最小值等。以Java为例，编写一个简单的UDAF函数，实现计算平均值：

package com.example.hive.udaf;

import org.apache.hadoop.hive.ql.exec.UDAF;
import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;

public class Avg extends UDAF {
    public static class AvgEvaluator implements UDAFEvaluator {
        private double sum;
        private int count;

        public void init() {
            sum = 0;
            count = 0;
        }

        public boolean iterate(double value) {
            if (value != null) {
                sum += value;
                count++;
            }
            return true;
        }

        public Double terminatePartial() {
            return count == 0 ? null : sum / count;
        }

        public boolean merge(Double other) {
            if (other != null) {
                sum += other * count;
                count++;
                sum /= count;
            }
            return true;
        }

        public Double terminate() {
            return count == 0 ? null : sum;
        }
    }
}

编译并打包成jar文件，上传到Hive的classpath路径下。然后在Hive中注册该函数：

ADD JAR /path/to/udaf.jar;
CREATE TEMPORARY FUNCTION avg AS 'com.example.hive.udaf.Avg';

使用该函数：

SELECT avg(column) FROM table GROUP BY group_column;

UDTF函数

UDTF函数用于生成表格数据，例如将一行数据拆分成多行。以Java为例，编写一个简单的UDTF函数，实现将字符串按照分隔符拆分成多行：

package com.example.hive.udtf;

import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;
import org.apache.hadoop.hive.ql.exec.UDTF;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.StringObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.StructField;
import org.apache.hadoop.io.Text;

import java.util.ArrayList;
import java.util.List;

public class Split extends UDTF {
    private StringObjectInspector stringOI = null;

    @Override
    public StructObjectInspector initialize(ObjectInspector[] args) throws UDFArgumentException {
        if (args.length != 2) {
            throw new UDFArgumentLengthException("Split takes exactly two arguments: string and delimiter");
        }
        if (!args[0].getCategory().equals(ObjectInspector.Category.PRIMITIVE)
                || !args[1].getCategory().equals(ObjectInspector.Category.PRIMITIVE)) {
            throw new UDFArgumentException("Split takes primitive types as arguments");
        }
        stringOI = (StringObjectInspector) args[0];
        return ObjectInspectorFactory.getStandardStructObjectInspector(
                new ArrayList<StructField>() {{
                    add(ObjectInspectorFactory.getStandardStructField("value", PrimitiveObjectInspectorFactory.writableStringObjectInspector, 0));
                }}
        );
    }

    @Override
    public void process(Object[] args) throws HiveException {
        String value = stringOI.getPrimitiveJavaObject(args[0]).toString();
        String delimiter = stringOI.getPrimitiveJavaObject(args[1]).toString();
        for (String s : value.split(delimiter)) {
            List<Object> row = new ArrayList<>();
            row.add(new Text(s));
            forward(row);
        }
    }

    @Override
    public void close() throws HiveException {
    }
}

编译并打包成jar文件，上传到编译并打包成jar文件，上传到Hive的classpath路径下。然后在Hive中注册该函数：

ADD JAR /path/to/udtf.jar;
CREATE TEMPORARY FUNCTION avg AS 'com.example.hive.udtf.Split';

总结

Hive是一个基于Hadoop的数据仓库工具，它提供了类似于SQL的查询语言HiveQL，可以将结构化数据映射到Hadoop的分布式文件系统HDFS上进行查询和分析。Hive的优点包括易于学习和使用、处理大规模数据、可扩展性强、支持多种数据源等，缺点包括查询速度较慢、不支持实时查询和事务等。

蓝胖子的宝贝

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录