Hive
大数据运维
大数据运维研发SRE
展开
-
HiveServer遇到一个问题
基于给开发同学使用与BI用户使用的需求,打算开启HiveServer2服务,集群上面的Hive任务执行、调度,都走HiveServer2方式。之前只有调度任务与开发同学使用,所以使用的是Hive CLI方式,开发同学没有添加权限控制。 使用一段时间之后,发现HiveServer2存在各种问题。突出的问题就是不稳定、运行日志很难获取、任务ID需要解析等,最近遇到一个概率性出现的问题。I...原创 2018-05-12 09:15:14 · 1116 阅读 · 0 评论 -
HDFS之我遇到的各种问题
Hostname问题问题描述Datanode denied communication with namenode because hostname cannot be resolved (ip=xx.xx.xx.xx, hostname=xx.xx.xx.xx) at org.apache.hadoop.hdfs.server.blockmanagement.Datanode...原创 2018-06-07 20:03:51 · 2818 阅读 · 0 评论 -
Hive相关的两个疑问[一]
从疑问出发,寻根问底探究原理: 1. Hive CLI/Hive Beeline/Hive JDBC断开连接之后,运行在Yarn上的任务是否继续运行? 2. 我们知道JDBC是无法做缓存的,那么HUE是如何实现缓存功能的? 本部分研究第一个问题,即客户端的状态是否影响Yarn上正在运行的任务。 首先我们从现象谈起然后逐渐找到问题的答案,既是一个解疑的过程也是一个探究研究问题...原创 2018-07-05 20:40:42 · 2558 阅读 · 0 评论 -
Hive复杂类型的导入
Hive是大数据体系下ETL、数据预处理、数仓等领域比较重要的组件,应用广泛。博主空闲时间研究一下Hive的数据类型。1. Hive数据类型组成 关于Hive的数据类型,官方文档展示的比较全面,关于数据类型的详细说明Hive数据类型,这里总结如下 大类 类型 具体类型 基本类型 数值型 tinyint,smallint,int,bigint,...原创 2018-08-11 18:07:32 · 744 阅读 · 0 评论 -
HIVE JDBC任务执行流程
Hive提供了多种访问方式,其中JDBC是一种。通常通过JDBC访问,可以规避用户对HDFS、Metastore的直接访问。本文研究研究一下HiveJDBC执行任务的流程。JDBC执行流程 主要流程分为三条线: 1. 执行任务,无返回 执行完成,获取执行结果[boolean/int],直接结束 2. 执行任务,返回数据 执行完成,通过接口获取数据,用户...原创 2018-08-12 11:32:32 · 1613 阅读 · 0 评论 -
Flink vs. Spark简单分析
在技术架构与选型时,首先调研市面上常见的解决方案,然后从各方面进行比较,选择适合公司应用场景的技术。本文截取了文章Hadoop vs Spark vs Flink – Big Data Frameworks Comparison 中的比较表格。各项比较 文章来源:【 DataFlair: Hadoop vs Spark vs Flink – Big Data Frameworks Com...原创 2018-10-31 14:36:08 · 1677 阅读 · 0 评论