大数据技术Hive详解

本文深入探讨了大数据处理工具Hive,包括其概述、优缺点、架构原理以及与数据库的比较。Hive提供类SQL语法,简化大数据分析,但效率较低且不支持迭代计算。文章详细介绍了Hive的安装、数据类型、DDL操作、查询及函数使用,并提到了Hadoop与YARN的工作机制。此外,还涉及Hive的压缩和存储策略,如Snappy压缩,以及与TextFile、ORC和Parquet等存储格式的对比。通过对Hive的全面解析,读者将更好地理解和应用这一大数据仓库工具。
摘要由CSDN通过智能技术生成

一、Hive 概述

1、Hive 简介

Hive:由Facebook开源用于解决海量结构化日志的数据统计。

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。

本质是:将HQL转化成MapReduce程序。

说明: 

  1. Hive处理的数据存储在HDFS;
  2. Hive分析数据底层的实现是MapReduce;
  3. 执行程序运行在Yarn上;

1. 分布式文件系统HDFS存储架构与原理

HDFS结构与架构:

HDFS分布式文件系统架构:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wespten

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值