刘亚壮的专栏

持之以恒,贵在坚持,每天进步一点点。。。

Hadoop-2.7.1+Zookeeper-3.4.8+HBase-1.2.1+Hive-2.0.0完全分布式集群

网上有的hadoop,zookeeper,hbase,apache-hive相关文档,具体大家可以百度具体了解,本文不多做介绍,本文从最基本的环境搭建入手,纯环境搭建。搭建次环境唯一要考虑就是软件相互之间的兼容性,及服务器内存(最好大点,虚拟机2G以上),当然也可以...

2018-06-20 21:14:42

阅读数:111

评论数:0

Hive之——Hive SQL优化

一、Hive优化目标在有限的资源下,提高执行效率二、Hive执行HQL——> Job——> Map/Reduce三、执行计划查看执行计划explain [extended] hql四、Hive表优化1、分区静态分区动态分区set hive.exec.dy...

2018-06-08 23:45:15

阅读数:159

评论数:0

Hive之——自定义函数UDAF

关于Hive自定义函数UDF的相关信息,请参考博文《Hive之——自定义函数》用户自定义聚合函数,用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题:UDF也可以提供输入多个参数然后输出一个结果的运算,比如加法运算add(3,5),add这个UDF需要实现U...

2018-06-06 22:51:12

阅读数:113

评论数:0

Hive之——高级查询

一、查询操作group by、 order by、 join、 distribute by、 sort by、 cluster by、 union allorder by: 全局排序sort by:每个分组内部排序二、底层的实现MapReduce三、简单的聚合操作1、count计数count(*)...

2018-06-03 20:35:01

阅读数:224

评论数:0

Hive之——表属性操作

1、修改表名alter table table_name rename to new_table_name;2、修改列表alter table table_name change column c1 c2 int comment 'xxxx'; alter severity; //可以把改列放到指...

2018-06-02 20:08:48

阅读数:131

评论数:0

Hive之——数据导出

一、导出的方式1、Hadoop命令方式get    hadoop fs -get hdfs://liuyazhuang121:9000/user/hive/warehouse/lyz.db/test_p/st=20180602/datatext    hadoop fs -text hdfs://...

2018-06-02 19:59:36

阅读数:136

评论数:0

Hive之——数据操作

一、Hive基本使用——查询基本语法select [all | distinct] select_expr, select_expr, ... from tablename [where where_condition]二、实例1、hive命令行执行select * from lyz;2、linu...

2018-06-02 19:55:51

阅读数:108

评论数:0

Hive之——Hive表操作

一、Hive基本使用——数据类型1、基本数据类型tinyint, smallint, int, bigint, boolean, float, double, string, binary, timestamp, decimal, char, varchar, date2、集合类型array: a...

2018-06-02 14:14:24

阅读数:142

评论数:0

大数据杂谈之——HIVE和HBASE区别

1. 两者分别是什么?    Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--...

2018-06-01 21:04:14

阅读数:120

评论数:0

Hive之——权限管理(授权)

转载请注明出处:https://blog.csdn.net/l1028386804/article/details/80216911   HIVE授权管理,类似于操作系统权限可以授予给不同的主题,如用户(USER),组(GROUP),角色(ROLES),Hive还是支持相当多的权限管理功能,满足一...

2018-05-06 18:49:05

阅读数:491

评论数:0

Hive之——自定义函数

转载请注明出处:https://blog.csdn.net/l1028386804/article/details/802050361、Hive自定义临时函数步骤(1) 在类中创建自定义函数。自定义UDF需要继承'org.apache.hadoop.hive.ql.exec.UDF',实现eval...

2018-05-05 13:34:42

阅读数:86

评论数:0

Hive之——Hive分区(静态分区+动态分区)

Hive分区的概念与传统关系型数据库分区不同。传统数据库的分区方式:就oracle而言,分区独立存在于段里,里面存储真实的数据,在数据进行插入的时候自动分配分区。Hive的分区方式:由于Hive实际是存储在HDFS上的抽象,Hive的一个分区名对应一个目录名,子分区名就是子目录名,并不是一个实际字...

2018-05-04 18:21:08

阅读数:115

评论数:1

Hive之——Hive支持的文件格式与压缩算法(1.2.1)

概述只要是配置了正确的文件类型和压缩类型(比如Textfile+Gzip、SequenceFile+Snappy等),Hive都可以按预期读取并解析数据,提供SQL功能。SequenceFile本身的结构已经设计了内容进行压缩。所以对于SequenceFile文件的压缩,并不是先生成Sequenc...

2018-05-04 12:05:37

阅读数:113

评论数:0

Hive之——索引操作

转载请注明出处:https://blog.csdn.net/l1028386804/article/details/80184742索引是hive0.7之后才有的功能,创建索引需要评估其合理性,因为创建索引也是要磁盘空间,维护起来也是需要代价的创建索引hive> create...

2018-05-03 19:04:32

阅读数:120

评论数:0

Hive之——常用函数案例

关系运算1、等值比较: =语法:A=B操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE hive> select 1 from iteblog where 1=1;1 2、不等值比较: <>语...

2018-05-03 18:46:02

阅读数:86

评论数:0

Hive之——Hive2.0函数大全

摘要Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。数学函数Return TypeName (Signature)DescriptionDOUBLEround(DOUBLE a)Returns the ro...

2018-05-03 18:41:41

阅读数:77

评论数:0

Hive之——基本操作案例

转载请注明出处:https://blog.csdn.net/l1028386804/article/details/80173778一. Hive概述1、为什么使用HiveHadoop生态系统的诞生为高效快速地处理大数据带来曙光,但是需要写MapReduce或者Spark任务,入门门槛较高,需要掌...

2018-05-02 23:44:00

阅读数:223

评论数:0

Hive之——数据倾斜与解决方案

转载请注明出处:https://blog.csdn.net/l1028386804/article/details/801650541、空值数据倾斜场景: 如日志中,常会有信息丢失的问题,比如全网日志中的 user_id,如果取其中的 user_id和 bmw_users 关联,会碰到数据倾斜的问...

2018-05-02 13:04:37

阅读数:61

评论数:0

Hive之——怎样写exist/in子句

转载请注明出处:https://blog.csdn.net/l1028386804/article/details/80164963Hive 不支持 where 子句中的子查询, SQL 常用的 exist in 子句需要改写。这一改写相对简单。考虑以下 SQL 查询语句:SELECT a.key...

2018-05-02 12:48:55

阅读数:196

评论数:0

Hive之——hive本地模式配置,连接mysql数据库--Hive2.3.3+Hadoop2.9.0+MySQL5.7.18

转载请注明出处:https://blog.csdn.net/l1028386804/article/details/801600421、环境的基本说明     本文使用的是vmware10虚拟机安装unbuntu16.04(64位)环境,机器名为hadoop。     hive2.3.3 : ap...

2018-05-01 22:11:36

阅读数:217

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭