hive
树很懒~
这个作者很懒,什么都没留下…
展开
-
简述Hive与HBase的集成
Hive与HBase的集成文章目录Hive与HBase的集成一、Hive与HBase对比二、Hive与HBase集成使用场景三、 HBase 与 Hive 集成使用一、Hive与HBase对比1. Hive(1)数据仓库Hive 的本质其实就相当于将 HDFS 中已经存储的文件在 Mysql 中做了一个双射关系,以方便使用 HQL 去管理查询。(2)用于数据分析、清洗Hive 适用于离线的数据分析和清洗,延迟较高。(3)基于 HDFS、 MapReduceHive 存储的数据依旧在 Dat原创 2020-07-23 17:03:03 · 164 阅读 · 0 评论 -
hive之性能优化
hive之性能优化原创 2020-07-20 08:34:02 · 326 阅读 · 0 评论 -
hive之高级查询
hive之高级查询一、Hive的数据查询使用方法类似于MySQL,关键字和MySQL一样,不区分大小写limit用于控制输出的行数where —在group by之前,可以没有指定条件对数据进行筛选group by子句对查询的数据进行分组having子句对分组后数据进行进一步的条件筛选,与MySQL的用法一样,只能用在group by之后CTE和嵌套查询1)CTEWITH t1 AS (SELECT …) SELECT * FROM t1;嵌套查询SELECT * F原创 2020-07-19 18:05:45 · 785 阅读 · 0 评论 -
hive系列之窗口函数
hive系列之窗口函数文章目录hive系列之窗口函数一、窗口函数二、常用窗口函数2.1 排序2.1.1 NTILE2.1.2 rank()2.1.3 dense_rank()2.1.4 row_number()2.2 聚合2.3 分析2.3.1 LAG和LEAD函数2.3.2 first_value和last_value函数一、窗口函数窗口函数窗口函数是一组特殊函数,扫描多个输入行来计算每个输出值,为每行数据生成一行结果;可以通过窗口函数来实现复杂的计算和聚合基本语法select F原创 2020-07-19 18:04:43 · 206 阅读 · 0 评论 -
Hive常用基础命令
Hive常用基础命令一、打开命令行窗口有两种工具:Beeline和Hive命令行beeline1)启动元数据库(此步可省略)hive --service metastore (后台启动:nohup hive --service metastore &)2)启动hiveserver2hive --service hiveserver2 (后台显启动:nohup hive --service hiveserver2 &)3)启动beelinbeeline -u jdbc:hi原创 2020-07-19 14:51:57 · 266 阅读 · 0 评论 -
hive的四个排序方法
一、 order byorder by 是要对输出的结果进行全局排序,这就意味着只有一个reduce task时才能实现(多个reducer无法保证全局有序)但是当数据量过大的时候,效率就很低,速度会很慢。二、sort bysort by 不是全局排序,只保证了每个reduce task中数据按照指定字段和排序方式有序排列,是局部排序。reduce task 的数量可以通过 set mapred.reduce.tasks=[num] 来设置。三、distribute bydistribute by原创 2020-07-19 14:50:09 · 2629 阅读 · 0 评论 -
hive之视图
hive之视图一、视图定义:通过隐藏子查询、连接和函数来简化查询的逻辑结构,是虚拟表,从真实表中选取数据;只保存定义,不存储数据, 如果删除或更改基础表,则查询视图将失败,而且视图是只读的,不能插入或装载数据应用场景1)将指定的数据提供给用户,保护数据隐私2)简化查询语句复杂的场景二、视图表创建视图CREATE VIEW view_name AS SELECT 。。。。; ps: 创建视图支持 CTE, ORDER BY, LIMIT, JOIN 等– 查找视图 SHO原创 2020-07-19 12:27:46 · 826 阅读 · 0 评论 -
hive之分桶系列
hive之分桶系列一、分桶定义桶是对数据范围更细的划分。针对某一列进行桶的组织,对列值哈希,然后除以桶的个数求余,决定将该条记录存放到哪个桶中。作用1) 提高了查询速度2) 使抽样(sampling)更高效二、分桶表创建分桶表create table student_buckets(id int ,name string) clustered by (id) into 4 buckets //比普通建表多一个这个stored as textfile;开启分桶设置s原创 2020-07-19 12:27:14 · 134 阅读 · 0 评论 -
hive分区——静态分区和动态分区
hive分区——静态分区和动态分区语法、区别及使用场景一、 Hive以及分区简介hivehive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。hive分区hive 为了避免全表查询,从而引进分区,将数据进行划分,减少不必要的查询,从而提高效率。二、静态分区三、动态分区...原创 2020-07-13 08:39:43 · 753 阅读 · 0 评论 -
hive中内、外部表以及修改表操作
hive中内部表和外部表hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。hive的数据表分为内部表跟外部表。一、内部表(管理表)HDFS中为所属数据库目录下的子文件夹。数据完全由Hive管理。删除表(元数据)会删除数据创表语句:create table if not exists studennt(id int,name strin原创 2020-07-13 08:38:47 · 3537 阅读 · 0 评论 -
Hive初始化数据库异常处理
初始化数据库时报如下错误 :org.apache.hadoop.hive.metastore.HiveMetaException: Failed to get schema version.2020-06-30 08:25:09,985 WARN [main] util.HeapMemorySizeUtil: hbase.regionserver.global.memstore.upperLimit is deprecated by hbase.regionserver.global.memstore.原创 2020-06-30 14:25:01 · 1068 阅读 · 0 评论