Hive
文章平均质量分 75
Hive
云烟成雨TD
一个追求有道有术的非典型程序员
展开
-
Hive入门系列(5)-分区表+分桶表
分区表数据库分区是一种物理数据库设计技术,DBA和数据库建模人员对其相当熟悉。虽然分区技术可以实现很多效果,但其主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间。hive中的分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。基本操作准备数据# 准备三个数据文件,模原创 2021-01-14 10:33:38 · 344 阅读 · 0 评论 -
Hive入门系列(4)-DML基本操作
数据导入Loadhive提供了load命令,可以将数据文件直接导入进表中。语法:LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1,partcol2=val2 ...)](1)load data:表示加载数据(2)local:表示从本地加载数据到 hive 表;否则从 HDFS 加载数据到 hive 表(3)inpath:表示加载数据的路径(4)ove原创 2021-01-13 10:36:19 · 416 阅读 · 0 评论 -
Hive入门系列(3)-Hive基本数据类型+DDL操作
Hive常见的数据类型定义数据类型是指列、存储过程参数、表达式和局部变量的数据特征,它决定了数据的存储格式,代表了不同的信息类型。定义数据字段的类型对你数据库的优化是非常重要的。分类Hive支持多种类型,大致可以分为:数值、时间、字符串、复合、其他类型。基本数据类型集合数据类型DDL创建库语法CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] //关于数据块原创 2021-01-09 22:21:11 · 267 阅读 · 0 评论 -
Hive入门系列(2)-Hive常用配置
配置Mysql集成# 下载cd /opt/soft/wget https://mirrors.bfsu.edu.cn/apache/hive/hive-2.3.7/apache-hive-2.3.7-bin.tar.gz# 安装tar -zxvf apache-hive-2.3.7-bin.tar.gzmv apache-hive-2.3.7-bin hive-2.3.7# 添加环境变量vim /etc/profile# HIVE_HOMEexport HIVE_HOME=/opt/so原创 2021-01-06 20:00:28 · 311 阅读 · 0 评论 -
Hive入门系列(1)-Hive简介+安装+基本操作
简介官网地址hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。优缺点优点:操作接口采用类 SQL 语法,提供快速开发的能力(简单、容易上手)。避免了去写 MapReduce,减少开发人员的学习成本。Hive 的执行延迟比较高,因此 Hive 常用于数据分析,对实时性要求原创 2021-01-06 17:31:02 · 324 阅读 · 0 评论