HDFS
TomAndersen
新目标:喜欢上读书
展开
-
Hive之配置使用snappy压缩
前言操作系统:CentOS 7hadoop:2.7.7hive:2.3.0Hive中配置snappy压缩,可以分别在Mapper输出阶段和Reducer输出阶段使用压缩算法。也可以将压缩后数据文件加载到表中用于查询,Hive会通过后缀名自动识别对应的压缩格式,并在查询时进行解压,但需要保持数据文件和表格式相同,否则只会显示结果全为NULL查看本机目前可供Hadoop使用的压缩算法使用以下命令,可以查看是否有相应压缩算法的库,如果显示为false,则需要额外安装(CentOS原创 2020-05-28 22:34:49 · 3162 阅读 · 3 评论 -
Hive自定义表生成函数UDTF的自定义实现Demo
前言Hive:2.3.0由于实际生产环境中,Hive自带的内建函数无法覆盖所有的应用场景,所以时常需要进行自定义函数User-Defined Function(UDF),以满足实际生产需求。本文主要演示如何实现自定义表生成函数User-Defined Table-Generating Function(UDTF),此类函数的特点是一进多出创建Hive函数时,如果指定为临时的(temporary)则可以在所有数据库下使用,但只能在当前会话中使用,退出后自动删除;如果指定为持久的(per原创 2020-05-28 21:15:20 · 659 阅读 · 0 评论 -
Hadoop之HDFS集群吞吐量测试
前言Hadoop官方在Hadoop安装包的share/hadoop/mapreduce/路径下提供了TestDFSIO工具,专门用于测试HDFS的吞吐量Hadoop版本:2.7.71)HDFS写性能测试测试命令示例:hadoop jar /opt/module/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-client-jo...原创 2020-03-23 11:49:36 · 1305 阅读 · 0 评论