hive学习篇1

原创 2015年11月19日 12:11:06

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,它的本质就是将SQL转换成MapReduce程序。

Hive本身建立在Hadoop的体系结构上,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行。并按照该计划生成MapReduce任务后交给Hadoop集群处理。

Hive是一个数据仓库,它提供了数据仓库的部分功能:数据ETL(抽取、转换、加载)工具,数据存储管理,大数据集的查询和分析能力。

由于Hive是基于hadoop平台的,所以它有很好的扩展性(可以自适应机器和数据量的动态变化),高延展性(自定义函数),良好的容错性,低约束的数据输入格式。


 


Hive的存储是建立在Hadoop文件系统之上的。Hive本身没有专门的数据存储格式,也不能为数据建立索引,用户可以自由地组织Hive中的表,只需要在创建表的时候告诉Hive数据中的列分隔符行分割符就可以解析数据了。

Hive中主要包含四种数据模型:表(Table)、外部表( External Table)、分区表(Partition)、桶(Bucket)。Hive中的表和数据库中的表的概念是类似的,每个表在Hive中都有一个对应的存储目录。

Hive操作

显示所有hive中的所有数据库:show databases;


创建数据库,数据名为test:create database test;


创建student表:hive> create table student (
                                     > sno bigint,
                                     > sname string,
                                     > sex string,
                                     > tel bigint)
                                     > row format delimited fields terminated by '\t';


为了测试我把我们班的人名单上传到了student表中

load data local inpath '/home/file/people.txt' into table student;

查询表的数据:select * from student;


在查询时也遇到了一些问题,一开始查询出来乱码,后来在网上查了查资料,我上传的文本的编码和linux中的终端编码不一样,于是我将我文本的编码改成了utf-8,于是查询出来就不乱码了。

初学hive,以后博客持续更新。

学习Hadoop第三十课(Hive简单入门)

上节课我们一起学习了用Java来对HBase的表进行增、删、改、查操作。这节课我们开始步入Hive的学习阶段        我们先来看一下Hive的简介,如下图所示,Hive是一个数据仓库,它部署在H...
  • u012453843
  • u012453843
  • 2016年11月05日 14:40
  • 4945

鸟哥的Linux私房菜 基础学习篇(第三版)

第零章 计算器概论 1 计算机:辅助人脑的好工具 接收用户指令与数据,经由中央处理器的数学与逻辑单元运算处理后,以产生或存储成有用的信息。 1.1 计算器的五大单元 输入单元,CPU控制单元,CPU算...
  • niuzhihuan
  • niuzhihuan
  • 2015年08月03日 20:17
  • 1028

Hadoop之hive学习_01

Hive是构建在hdfs上的一个数据仓库,本质上就是数据库,用来存储数据 数据仓库是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合,用于支持企业或组织的决策分析处理。 1.      ...
  • csdn_flying97
  • csdn_flying97
  • 2016年07月07日 09:02
  • 4185

《鸟哥的linux私房菜:基础学习篇》第3版 - 核心笔记(全)

一、什么是 Linux 呢?! • Unix 与 Linux 的历史     o Multics 系统:由 Bell(贝尔实验室)、MIT(麻省理工学院)与 GE(美国通     用电器)合作开发的...
  • sinat_36184075
  • sinat_36184075
  • 2017年05月19日 23:50
  • 623

java并发编程学习总结(基础篇)

一、基础概念总结 1.多线程程序可能存在的风险: (1)安全性问题:多线程程序在没有充足同步的情况下,在特定的线程执行时序下,多个线程同时操作一块共享资源时,可能引发错误。 (2)活跃性问题...
  • lantian0802
  • lantian0802
  • 2014年02月16日 14:52
  • 1811

Hive学习路线

前言 Hive是Hadoop家族中一款数据仓库产品,Hive最大的特点就是提供了类SQL的语法,封装了底层的MapReduce过程,让有SQL基础的业务人员,也可以直接利用Hadoop进行数据的操作...
  • Gold_Spring
  • Gold_Spring
  • 2015年04月11日 21:34
  • 502

Hive学习资料

官网 https://hive.apache.org/ 在线教程 http://gitbook.net/hive/index.html 书籍 《Hive编程指南》 在线文章 hive大数据倾斜总结...
  • golearn
  • golearn
  • 2016年05月22日 22:40
  • 1221

hive学习心得

前导 1.数据类型 a)基本数据类型 int(4字节,32位),float(4字节,32位),double(8字节,64位),boolean(true/false), 补充:tinyint(1字节,8...
  • u012693575
  • u012693575
  • 2016年11月14日 16:23
  • 458

hive sql详细学习

hive sql详细学习 1、准备数据 emp.txt 7369 SMITH CLERK 7902 1980-12-17 800.00 20 7499 ALLEN SALESMAN 7698 ...
  • u010220089
  • u010220089
  • 2015年10月19日 22:08
  • 1483

Spark基础知识学习分享

一、Spark基础知识梳理 1.Spark是什么? Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。Spark基于map reduce 算法模式实现的分布式计算,...
  • lantian0802
  • lantian0802
  • 2014年03月29日 18:25
  • 4158
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:hive学习篇1
举报原因:
原因补充:

(最多只允许输入30个字)