Hive
文章平均质量分 67
chengqiuming
这个作者很懒,什么都没留下…
展开
-
Hive的安装
一 Hive安装官网1、Hive官网(新版本从这下载)httpp://hive.apache.org2、老版本Hive安装包http://archive.apache.org/下载0.13版本Hive[root@localhost ~]# wget http://archive.apache.org/dist/hive/hive-0.13.0/apache-hive-0.1原创 2017-11-22 12:38:16 · 659 阅读 · 0 评论 -
Hive的数据导入——Load语句
一 语法LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE]INTO TABLE tablename [PARTITION (partcol1=val1,partcol2=val2 ...)]二 表hive> desc t2;OKtid int tname string age int Time taken: 2.176原创 2017-12-05 21:29:01 · 7098 阅读 · 0 评论 -
Hive简单查询的Fetch Task功能与实战
一 简介1、从Hive0.10.0版本开始支持。2、配置方式有三种:set hive.fetch.task.conversion=more;hive --hiveconf hive.fetch.task.conversion=more修改hive-site.xml文件hive.fetch.task.conversionmore二 实战1 查询原创 2017-12-05 21:30:26 · 1339 阅读 · 0 评论 -
Hive在查询中使用过滤
一 查询语法二 查询时使用过滤的实例1、查询10号部门的员工select * from emp where deptno =10;hive> select * from emp where deptno =10;OK1001.0 Tome null 5000.0 10.01002.0 Tome null 5000.0 10.07782.0 CLARK M原创 2017-12-05 21:32:07 · 4905 阅读 · 0 评论 -
Hive在查询中使用排序
一 按照某字段排序hive> select empno,ename,sal from emp order by sal;Total jobs = 1Launching Job 1 out of 1Number of reduce tasks determined at compile time: 1In order to change the average load fo原创 2017-12-05 21:33:30 · 1116 阅读 · 0 评论 -
Hive数学函数
一 Hive函数分类1、内置函数2、自定义函数二 Hive的内置函数三 数学函数1、round:四舍五入hive> select round(45.945,0),round(45.945,-1),round(45.435,-2),round(45.945,2),round(45.945,1);OK46.0 50.0 0.0 45.95 45.9原创 2017-12-05 21:35:10 · 2822 阅读 · 0 评论 -
Hive字符函数
一 常用字符函数lower、upper、length、concat、substr、trim、lpad、rpad二 实战hive> select lower('Hello World'),upper('Hello World');OKhello world HELLO WORLDhive> select length('Hello World'),length('你好原创 2017-12-05 21:36:53 · 396 阅读 · 0 评论 -
Hive收集函数和转换函数
一 收集函数sizeselect size(map(1,'Tom',2,'Mary'));二 转换函数castselect cast(1 as bigint);select cast(1 as float);select cast('2014-05-05',date):三 实战原创 2017-12-05 21:38:55 · 647 阅读 · 0 评论 -
Hive日期函数
一 日期函数to_dateyearmonthdayweekofyeardatediffdate_adddate_sub二实战原创 2017-12-05 21:41:03 · 316 阅读 · 0 评论 -
Hive 简介
一 学习前提二 什么是Hive三 为何使用Hive四 相关Hive资源五 参考http://www.jikexueyuan.com/course/825.html原创 2017-12-23 19:24:01 · 299 阅读 · 0 评论 -
Hive 与 HBase 关系
一 Hive和Base的区别二 Hive和Hbase的连接结构图三 参考http://www.jikexueyuan.com/course/825.html原创 2017-12-23 19:36:01 · 327 阅读 · 0 评论 -
Hive 与 RDBMS 关系
一 Hive与RDMS比较二 参考http://www.jikexueyuan.com/course/825.html原创 2017-12-23 19:45:28 · 510 阅读 · 0 评论 -
数据库与数据仓库
一 数据库相关概念二 数据仓库相关概念三 数据仓库体系结构四 数据仓库的基本特征五 数据库与数据仓库比较六 参考http://www.jikexueyuan.com/course/825.html原创 2017-12-23 20:01:15 · 470 阅读 · 0 评论 -
Hive的体系结构
Hive的体系结构如下图所示,主要包括:用户接口Thrift服务器元数据存储解析器Hadoop原创 2017-12-24 09:50:26 · 375 阅读 · 0 评论 -
Hive条件函数
一 条件函数1、coalesce:从左到右返回地一个不为null的值。2、case...when...:条件表达式CASE a WHEN b THEN cWHEN d THEN eELSE fEND二 实战1、coalesce应用2、给员工涨工资,总裁涨1000,经理涨800,其他涨400hive> select ename,empjob,sal原创 2017-12-06 20:15:50 · 511 阅读 · 0 评论 -
Hive聚合函数和表生成函数
一 聚合函数1、count2、sum3、min4、max5、avg二 实例hive> select count(*),sum(sal),max(sal),min(sal),avg(sal) from emp;Total jobs = 1Launching Job 1 out of 1Number of reduce tasks determined at原创 2017-12-06 20:18:38 · 1597 阅读 · 0 评论 -
Hive的数据模型之分区表
一 分区表(Partition)1、Partiition对应于数据库的Partition列的密集索引。2、在Hive中,表中的一个Partition对应于表下的一个目录,所有的Partition的数据都存储在对应的目录中。二 理解分区表三 实战1、创建分区表> create table patition_table> (sid int,sname string)原创 2017-11-25 19:22:59 · 459 阅读 · 0 评论 -
使用Sqoop进行数据的导入
一 下载地址http://archive.apache.org/dist/sqoop/1.4.4/[root@localhost bin]# wget http://archive.apache.org/dist/sqoop/1.4.4/sqoop-1.4.4.bin__hadoop-0.20.tar.gz二 解压sqoop[root@localhost bin]# tar原创 2017-12-04 21:50:00 · 7217 阅读 · 0 评论 -
Hive的体系结构图
Hive的体系结构图 大小: 306.8 KB 查看图片附件原创 2017-11-22 12:37:57 · 372 阅读 · 0 评论 -
什么是Hive
一 什么是Hive1、Hive是构建于Hadoop HDFS之上的一个数据仓库基础架构。2、Hive可以用来进行数据提取转化加载(ETL)。3、Hive定义了简单的类似SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。4、Hive允许熟悉MapReduce开发者开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。5原创 2017-11-22 12:37:30 · 625 阅读 · 0 评论 -
Hive的体系结构之HQL的执行过程
一 一条HQL语句如何在hive中进行查询解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中,并在随后有MapReduce调用执行。 二 怎样查看oracle的执行计划1、不创建索引的执行计划 2、创建索引的执行计划 Hive的执行计划和oracle的执行计划类似原创 2017-11-22 12:37:40 · 2149 阅读 · 0 评论 -
Hive基本概念
一 什么是HiveHive是构建于Hadoop HDFS之上的一个数据仓库,它本身就是一个数据库。 二什么是数据仓库数据仓库就是一个数据库,数据仓库是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合,它用于支持企业或组织的决策分析处理。面向主题:数据仓库中的数据是按照一定的主题进行组织的,是用户进行决策时关注的重点方面。例如商品推荐系统,主题当然是商品信息。集成的原创 2017-11-22 12:36:33 · 250 阅读 · 0 评论 -
Hive的复杂数据类型和时间类型
一 复杂数据类型Array:数组类型,由一系列相同类型的元素组成Map:集合类型,包括key->value键值对,可以通过key来访问元素。Struct:结构类型,可以包含不同类型的元素。这些元素可以通过“点语法”的方式来得到所需要的元素。二 实战1、数组hive> create table student> (sid int,> sname string,原创 2017-11-21 21:58:45 · 704 阅读 · 0 评论 -
Hive的数据类型之基本数据类型
一 基本数据类型tinyint/smallint/int/bigint:整数类型float/double:浮点数类型boolean:布尔类型string:字符串类型二 复杂数据类型Array:数组类型,由一系列相同类型的元素组成Map:集合类型,包括key->value键值对,可以通过key来访问元素。Struct:结构类型,可以包含不同类型的元素。这些元素原创 2017-11-21 21:56:04 · 1305 阅读 · 0 评论 -
Hive管理之Web界面和远程管理
一 Web启动方式端口号:9999hive --service hwi &通过浏览器来访问:http://:9999/hwi/二 安装apache-hive-0.13.0-src.tar.gz[root@localhost ~]# ls apache-hive-0.13.0-src.tar.gz apache-hive-0.13.0-src.tar.gz[roo原创 2017-11-21 21:53:20 · 8769 阅读 · 1 评论 -
Hive的管理
一 Hive的启动方式1、CLI(命令行)方式2、Web界面方式3、远程服务启动方式二 CLI(命令行方式)1、直接输入hive2、hive --service cli3、静默模式hive -S[root@localhost ~]# hiveLogging initialized using configuration in jar:file原创 2017-11-21 21:49:37 · 559 阅读 · 0 评论 -
Hive远程模式安装和本地安装
一 远程模式1、元数据信息被存储在Mysql数据库中2、Mysql数据库与Hive运行不在同一台物理机器上3、多用于实际的生产运行环境二 远程模式模型三 步骤1、在Linux的Mysql数据库中创建数据库hiva[root@localhost conf]# mysql -uroot -pwaDY201705!mysql: [Warning] Usi原创 2017-11-20 21:46:03 · 997 阅读 · 0 评论 -
Hive的嵌入安装
一 上传安装包[root@localhost ~]# ll apache-hive-0.13.0-bin.tar.gz -rw-r--r--. 1 root root 54107819 Aug 21 21:16 apache-hive-0.13.0-bin.tar.gz二 确认hadoop正常运行[root@localhost ~]# jps3855 TaskTracker原创 2017-11-20 21:39:24 · 327 阅读 · 0 评论 -
Hive的数据模型之外部表
一 外部表(External Table)1、指向已经在HDFS中存在的数据,可以创建Partition。2、它和内部表在元数据的组织上是相同的,而实际数据的存储则有较大的差异。3、外部表只是一个过程,加载数据和创建表同时完成,并不会移动到数据仓库目录中,只是与外部数据建立一个链接。当删除一个外部表时,仅删除该链接。二 理解外部表三 实战1、加入外部数据原创 2017-12-03 19:18:22 · 503 阅读 · 1 评论 -
Hive的数据模型之桶表
一 桶表(Bucket Table)1、桶表是对数据进行哈希取值,然后放到不同文件中存储。2、桶表利用hash运算将某一列相同哈希放入到一个桶中,从而提高查询效率。二 理解桶表三 创建桶表hive> create table bucket_table> (sid int,sname string,age int)> clustered by(snam原创 2017-12-03 19:20:36 · 355 阅读 · 1 评论 -
Hive的数据模型之视图
一 视图(View)1、视图是一种虚表,是一个逻辑概念;可以跨越多张表。2、视图建立在已有表的基础上,视图赖以建立的这些表称为基表。3、视图可以简化复杂查询。二 建立基表1、建立部门表2、建立员工表三 创建视图hive> create view empinfo> as> select e.empno,e.ename,e.sal,e原创 2017-12-03 19:23:34 · 572 阅读 · 1 评论 -
Hive的数据存储
一 数据存储1、基于HDFS2、表没有专门的数据存储格式,可以用文本文件或CSV文件代表一个表中的数据。默认是用制表符作为列与列的分隔符。3、存储结构主要包括:数据库、文件、表、视图。4、可以直接加载文本文件(.txt文件等)5、创建表时,指定Hive数据的列分隔符与行分隔符。二 表的分类Table:内部表Partition:分区表External Table:原创 2017-11-23 20:34:27 · 323 阅读 · 0 评论 -
Hive的数据模型之内部表
一 内部表(Table)1、与数据库中的Table在概念上是类似的。2、每一个Table在Hive中都有一个相应目录存储数据。3、所有的Table数据(不包括External Table)都保存在这个目录中。4、删除表时,元数据与数据都会被删除。二 实战1、表保存在默认位置hive> create table t1> (tid int,tname strin原创 2017-11-23 20:36:47 · 554 阅读 · 0 评论 -
Hive的安装
一 下载hive[root@centos opt]# wget https://mirror.bjtu.edu.cn/apache/hive/hive-2.1.1/apache-hive-2.1.1-bin.tar.gz二 安装hive[root@centos opt]# tar -zxvf apache-hive-2.1.1-bin.tar.gz[root@centos opt]#原创 2018-01-04 21:53:37 · 375 阅读 · 0 评论