hive
hive 的简介、创建、介绍
weixin_42130191
这个作者很懒,什么都没留下…
展开
-
hive中函数
常使用过哪些系统函数avg max min sum count distinctdate_format函数(根据格式整理日期)date_add函数(加减日期)date_sub加减日期 date_diff计算日期之间相差的天数next_day函数(当前天的下周一、二。。。日)last_day函数(求当月最后一天日期)concat:任何一个参数为null ,则返回值为 null,语法:concat (str1,str2,…)concat_ws:可以指定参数之间的分隔符第一个参数申明。原创 2020-06-10 11:49:28 · 372 阅读 · 0 评论 -
hive中的分区和分桶-----内部表和外部表的区别
1.内部表和外部表内部表:不需要关键字声明,删除表元数据和真实数据都会删除。内部表可以直接修改。外部表:需要external关键字声明,删除表只会删除元数据而不会删除hdfs中的真实数据。外部表修改需要修复:MSCK REPAIR TABLE table_name;一般都是外部表,内部表是自己使用的中间表时创建。2. 分区和分桶的区别分区针对的是数据存储路径,分桶针对的是数据文件。分区使用的是表外字段,需要指定字段类型;分桶使用的是表内字段,已经知道字段类型,不需要再...原创 2020-06-10 11:47:10 · 276 阅读 · 0 评论 -
hive中优化
1)Fetch 抓取是指:Hive 中对某些情况的查询可以不必使用 MapReduce 计算。hive.fetch.task.conversion 默认是 more,老版本 hive 默认是 minimal,该属性修改为 more 以后,在全局查找、字段查找、limit 查找等都不走 mapreduce。2)本地模式:设置hive.exec.mode.local.auto 的值为 true3)开启MapJoin:set hive.auto.convert.join = true默认为true原创 2020-06-10 11:42:33 · 108 阅读 · 0 评论 -
hive的简介
1.hive的概念①hive有facebook实现并开源②hive是基于hadoop的一个数据仓库工具③hive存储的数据其实底层存储在hdfs上④hive将hdfs上的结构化的数据映射为一张数据库表⑤hive提供HQL(hive sql)查询功能⑥ hive的本质是将sql语句装换为mapreduce任务运行,使不熟悉mapreduce的用户很方便地利用hql处理和计...原创 2019-09-17 15:27:56 · 129 阅读 · 0 评论 -
hive与关系型数据库以及HBase之间的比较
1.2、hive和rdbms的对比对比项 hive rdbms 查询语言 HQL sqL 数据存储 HDFS raw Device or Local FS 执行器 MapReduce Executor 数据插入 支持批量导入/单条插入 支持单条或批量导入 数据操作 覆盖追加 行级更新...原创 2019-09-17 16:12:23 · 372 阅读 · 0 评论 -
hive的数据存储
1、hive的存储结构包括数据库、表、视图、分区和表数据等。(其中数据库,表,分区等都对应hdfs上的一个目录,表数据对应hdfs对应目录下的文件)2、hive中所有的数据都存储在hdfs中,没有专门的数据存储格式,因为hive是读模式 可支持TextFile,SequenceFile,RCFIle或者自定义格式等3、只需要在创建表的时候告诉hive数据中的列分隔符和行分隔符,hive就可...原创 2019-09-17 19:43:50 · 2615 阅读 · 0 评论