Hive函数与流处理（Streaming）

还是做不到吗。

于 2024-06-14 10:22:35 发布

阅读量1.3k

点赞数 22

文章标签： hive hadoop 数据仓库

本文链接：https://blog.csdn.net/sdfghjkkl123/article/details/139674071

版权

在大数据处理中，Hive不仅支持丰富的内置函数，还允许用户创建自定义函数（UDF）来扩展其功能。此外，Hive的流处理能力（Hive Streaming）使得实时数据的处理和存储成为可能。本文将详细介绍Hive中的函数和流处理功能。

1. Hive内置函数

Hive提供了一系列内置函数，涵盖了字符串操作、日期处理、数学计算、集合操作等多个方面。以下是一些常用的内置函数示例：

字符串函数

LENGTH(string): 返回字符串的长度。
CONCAT(string1, string2, ...): 连接多个字符串。
SUBSTR(string, start, length): 返回从指定位置开始的子字符串。
UPPER(string): 将字符串转换为大写。
LOWER(string): 将字符串转换为小写。

示例：

SELECT LENGTH('hive'), CONCAT('hello', ' ', 'world'), SUBSTR('hive', 2, 2), UPPER('hive'), LOWER('HIVE') 
FROM mytable;

日期函数

CURRENT_DATE(): 返回当前日期。
YEAR(date): 返回日期的年份部分。
MONTH(date): 返回日期的月份部分。
DAY(date): 返回日期的天部分。
DATEDIFF(end_date, start_date): 计算两个日期之间的天数。

示例：

SELECT CURRENT_DATE(), YEAR('2023-06-14'), MONTH('2023-06-14'), DAY('2023-06-14'), DATEDIFF('2023-06-14', '2023-01-01') 
FROM mytable;

数学函数

ABS(number): 返回数字的绝对值。
CEIL(number): 返回大于等于该数字的最小整数。
FLOOR(number): 返回小于等于该数字的最大整数。
ROUND(number, decimal_places): 将数字四舍五入到指定的小数位数。
SQRT(number): 返回数字的平方根。

示例：

SELECT ABS(-5), CEIL(4.3), FLOOR(4.7), ROUND(3.14159, 2), SQRT(16) 
FROM mytable;

聚合函数

COUNT(column): 计算列中的非空值的数量。
SUM(column): 计算列中所有值的总和。
AVG(column): 计算列中所有值的平均值。
MIN(column): 返回列中的最小值。
MAX(column): 返回列中的最大值。

示例：

SELECT COUNT(*), SUM(amount), AVG(amount), MIN(amount), MAX(amount) 
FROM sales;

2. 用户自定义函数（UDF）

用户自定义函数（UDF）允许用户扩展HiveQL的功能。用户可以用Java编写UDF，并在Hive中注册和使用。

编写UDF

以下是一个简单的UDF示例，用于计算字符串的长度：

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

public class StringLength extends UDF {
    public int evaluate(Text input) {
        if (input == null) {
            return 0;
        }
        return input.toString().length();
    }
}

编译这个Java类并生成JAR文件。

注册和使用UDF

将JAR文件添加到Hive，并注册UDF：

ADD JAR /path/to/yourudf.jar;
CREATE TEMPORARY FUNCTION string_length AS 'your.package.StringLength';

使用UDF查询数据：

SELECT string_length(name) FROM mytable;

3. Hive流处理（Hive Streaming）

Hive Streaming允许实时写入Hive表，适用于需要低延迟数据处理的场景，例如实时日志分析和实时监控。Hive Streaming利用Apache Kafka和Hadoop HDFS，提供了从数据源到Hive表的实时数据管道。

Hive Streaming架构

Hive Streaming架构主要包括以下组件：

数据源：产生实时数据的应用或服务。
消息队列：如Apache Kafka，用于暂存实时数据。
Hive Streaming Agent：从消息队列读取数据并写入Hive表。
Hive Metastore：存储Hive表的元数据。
Hive表：存储实时数据。

配置Hive Streaming

配置Hive Metastore：确保Hive Metastore配置正确。

创建表：创建支持ACID的Hive表。

CREATE TABLE streaming_table (
    id INT,
    name STRING,
    age INT
)
PARTITIONED BY (year STRING, month STRING)
CLUSTERED BY (id) INTO 10 BUCKETS
STORED AS ORC
TBLPROPERTIES (
    'transactional' = 'true'
);

设置Kafka：确保Kafka集群配置正确，并创建所需的主题。
启动Hive Streaming Agent
使用Hive Streaming API或第三方工具（如Apache Flume）将数据从Kafka写入Hive。

示例：使用Apache Flume
配置Flume Agent：

创建Flume配置文件flume-conf.properties：

agent.sources = source1
agent.sinks = sink1
agent.channels = channel1

agent.sources.source1.type = org.apache.flume.source.kafka.KafkaSource
agent.sources.source1.kafka.bootstrap.servers = kafka-broker:9092
agent.sources.source1.kafka.topics = kafka-topic
agent.sources.source1.kafka.consumer.group.id = flume-group

agent.sinks.sink1.type = hive
agent.sinks.sink1.channel = channel1
agent.sinks.sink1.hive.metastore = thrift://hive-metastore:9083
agent.sinks.sink1.hive.database = default
agent.sinks.sink1.hive.table = streaming_table
agent.sinks.sink1.hive.txnsPerBatchAsk = 10
agent.sinks.sink1.hive.maxTxnsPerBatch = 100
agent.sinks.sink1.hive.callTimeout = 10000

agent.channels.channel1.type = memory
agent.channels.channel1.capacity = 10000
agent.channels.channel1.transactionCapacity = 1000

启动Flume Agent：

flume-ng agent --conf conf --conf-file flume-conf.properties --name agent -Dflume.root.logger=INFO,console

查询实时数据

数据写入Hive表后，可以像查询普通Hive表一样查询实时数据：

SELECT * FROM streaming_table WHERE year = '2024' AND month = '06';

还是做不到吗。

关注

22
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
Hive函数与流处理（Streaming）

用户自定义函数（UDF）允许用户扩展HiveQL的功能。用户可以用Java编写UDF，并在Hive中注册和使用。
复制链接

扫一扫