Hive 大数据表性能调优

  • 大数据应用程序开发人员在从 Hadoop 文件系统或 Hive 表读取数据时遇到了挑战。

  • 合并作业(一种用于将小文件合并为大文件的技术)有助于提高读取 Hadoop 数据的性能。

  • 通过合并,文件的数量显著减少,读取数据的查询时间更短。

  • 当通过 map-reduce 作业读取 Hive 表数据时,Hive 调优参数也可以帮助提高性能

Hive表是一种依赖于结构化数据的大数据表。数据默认存储在 Hive 数据仓库中。为了将它存储在特定的位置,开发人员可以在创建表时使用 location 标记设置位置。Hive 遵循同样的 SQL 概念,如行、列和模式。

 

在读取 Hadoop 文件系统数据或 Hive 表数据时,大数据应用程序开发人员遇到了一个普遍的问题。数据是通过spark streamingNifi streaming作业、其他任何流或摄入程序写入 Hadoop 集群的。摄入作业将大量的小数据文件写入 Hadoop 集群。这些文件也称为 part 文

用例

Hive 数据主要应用于以下应用程序:

 

  • 大数据分析,就交易行为、活动、成交量等运行分析报告;

  • 跟踪欺诈活动并生成有关该活动的报告;

  • 基于数据创建仪表板;

  • 用于审计和存储历史数据;

  • 为机器学习提供数据及围绕数据构建智能

优化技术

有几种方法可以将数据摄入 Hive 表。摄入可以通过 Apache Spark 流作业、Nifi 或任何流技术或应用程序完成。摄入的数据是原始数据,在摄入过程开始之前考虑所有调优因素非常重要

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值