Hive是什么 简介 安装部署 连接详解

Hive是一个基于Hadoop的数据仓库工具,通过SQL语法处理和分析HDFS上的大规模结构化数据。本文详细介绍了Hive的安装部署步骤,包括元数据存储在MySQL、HDFS环境准备、MapReduce执行模型,以及Hive的连接方式。通过这个教程,读者可以了解如何在Linux环境下设置Hive,并进行本地和远程连接。
摘要由CSDN通过智能技术生成

什么是Hive  

解决海量结构化日志的数据统计(海量的结构化数据的运算分析)

它是一个数仓工具,不是数据库  通过 SQL 形式 处理,分析,统计,运算 HDFS 上的海量结构化数据--->报表

 

本质: Hive(HQL)底层转换成MR程序,提交到Yarn分布式运行

 

  • Hive处理数据存储在HDFS上
  • Hive分析数据底层的实现是MapReduce / spark(分布式运算框架)
  • 执行程序运行在Yarn上

优点与缺点  简述

--- 优点

  1. 操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手
  2. 避免了去写MapReduce,减少开发人员的学习成本
  3. Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场合
  4. Hive优势在于处理大数据,对于处理小数据没有优势,因为Hive的执行延迟比较高
  5. Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。

---缺点

1) Hive的HQL表达能力有限

  • 迭代式算法无法表达    递归算法
  • 数据挖掘方面不擅长

2) Hive的效率比较低

  • Hive自动生成的MapReduce作业,通常情况下不够智能化
  • Hive调优比较困难,粒度较粗(快)

架构原理 

1) 用户接口:Client

  •      CLI(hive shell)
  •     JDBC/ODBC(java访问hive)
  •     WEBUI(浏览器访问hive)

2) 元数据:Metastore

元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型&#x

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值