-
大数据应用程序开发人员在从 Hadoop 文件系统或 Hive 表读取数据时遇到了挑战。
-
合并作业(一种用于将小文件合并为大文件的技术)有助于提高读取 Hadoop 数据的性能。
-
通过合并,文件的数量显著减少,读取数据的查询时间更短。
-
当通过 map-reduce 作业读取 Hive 表数据时,Hive 调优参数也可以帮助提高性能
Hive表是一种依赖于结构化数据的大数据表。数据默认存储在 Hive 数据仓库中。为了将它存储在特定的位置,开发人员可以在创建表时使用 location 标记设置位置。Hive 遵循同样的 SQL 概念,如行、列和模式。
在读取 Hadoop 文件系统数据或 Hive 表数据时,大数据应用程序开发人员遇到了一个普遍的问题。数据是通过spark streaming、Nifi streaming作业、其他任何流或摄入程序写入 Hadoop 集群的。摄入作业将大量的小数据文件写入 Hadoop 集群。这些文件也称为 part 文
用例
Hive 数据主要应用于以下应用程序:
-
大数据分析,就交易行为、活动、成交量等运行分析报告;
-
跟踪欺诈活动并生成有关该活动的报告;
-
基于数据创建仪表板;
-
用于审计和存储历史数据;
-
为机器学习提供数据及围绕数据构建智能
优化技术
有几种方法可以将数据摄入 Hive 表。摄入可以通过 Apache Spark 流作业、Nifi 或任何流技术或应用程序完成。摄入的数据是原始数据,在摄入过程开始之前考虑所有调优因素非常重要