Hive
文章平均质量分 77
Hive的点点滴滴
进阶的橙汁糖
吃饭,睡觉,敲代码
展开
-
Hive基本操作
一、Hive创建数据库与数据表1.1.数据库相关操作1.1.1.创建数据库语法:create database if not exists 数据库名;示例:create database if not exists mytestdatabase;1.1.2.创建数据库并指定HDFS存储路径语法:create database if not exists 数据库名 location 'HDS存储路径';示例:create database if not原创 2022-02-10 20:07:15 · 6480 阅读 · 1 评论 -
大数据-hive-安装部署-小记
我们在此处选择三台机器作为我们hive的安装机器1.6.1 安装1.6.1.1、derby版hive直接使用:1、解压hivecd /export/softwarestar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C ../servers/2、直接启动bin/hivecd ../servers/cd hive-1.1.0-cdh5.14.0/bin/hivehive> create database mytest;..原创 2021-08-24 17:26:34 · 251 阅读 · 0 评论 -
大数据-hive-在HDFS上的默认存储路径-小记
/user/hive/warehouse原创 2019-12-05 09:27:32 · 3508 阅读 · 0 评论 -
大数据-hive-数据导入表的方式-小记
1.直接向表中插入数据insert into table 表名 values (数据);2.通过查询插入数据insert overwrite table 表名1 partition(分区字段=‘值’) select 指定字段 from 表名2;3.多插入模式from 原始表insert overwrite table 被插入表1 partition(分区字段=‘值’’) select ...原创 2019-12-05 20:06:01 · 340 阅读 · 0 评论 -
大数据-hive-数据导出表的方式-小记
1.将查询的结果导出到本地insert overwrite local directory ‘本地路径’ select 指定字段 from 表名;2.将查询的结果格式化导出到本地insert overwrite local directory ‘/export/servers/exporthive’ row format delimited fields terminated by ‘\t’...原创 2019-12-05 20:06:43 · 196 阅读 · 0 评论 -
大数据-hive-order by与sort by的区别-小记
order by 是全局排序,一个MapReducesort by 是局部分区内部进行排序原创 2019-12-07 20:15:18 · 287 阅读 · 0 评论 -
大数据-hive-where与having的区别-小记
1.where是作用在表的所有字段,having是作用在查询的字段上2.在where子句中不能使用聚组函数,在having语句中可以使用聚组函数原创 2019-12-07 20:42:37 · 1502 阅读 · 0 评论 -
大数据-hive-distribute by使用场景,常与哪个联合使用-小记
按照指定的字段对数据进行分区时使用通常和sort by联合使用,Hive要求distribute by语句要写在sort by语句之前原创 2019-12-07 20:43:47 · 776 阅读 · 0 评论 -
大数据-hive-Cluster by的适用场景-小记
要根据某个字段进行分区,并且以这个字段进行排序时使用Cluster by原创 2019-12-07 20:44:34 · 435 阅读 · 0 评论 -
大数据-hive-distribute by+sort by 与Cluster by的联系、区别-小记
cluster by 的结果有限制,只能正序排列distribute by+sort by 可根据需求进行排序原创 2019-12-07 20:45:32 · 346 阅读 · 0 评论 -
大数据-hive-hive -e/-f/-hiveconf-小记
hive -e 后面的参数是‘命令行’hive -f 后面的参数是文件hive -hiveconf 设置hive运行时候的参数配置原创 2019-12-07 20:46:19 · 2322 阅读 · 0 评论 -
大数据-hive-声明参数类型、优先级-小记
配置文件(配置文件参数)hive -hiveconf (命令行参数)在hive的shell窗口set(参数声明)原创 2019-12-07 20:47:00 · 599 阅读 · 0 评论 -
大数据-hive-hiveUDF方法名-小记
evaluate原创 2019-12-07 20:48:04 · 163 阅读 · 0 评论 -
大数据-hive-常用数据存储格式、压缩格式-小记
在实际的项目开发当中,hive表的数据存储格式一般选择:orc或parquet。压缩方式一般选择snappy原创 2019-12-07 20:49:24 · 250 阅读 · 0 评论 -
大数据-hive-自定义函数类型-小记
1.UDF(User-Defined-Function) 一进一出2.UDAF(User- Defined Aggregation Funcation) 聚集函数,多进一出。Count/max/min3.UDTF(User-Defined Table-Generating Functions) 一进多出,如lateral view explore)...原创 2019-12-09 22:02:05 · 324 阅读 · 0 评论 -
大数据-hive-本地模式的好处-小记
在数据量较小时,提高查询效率原因:查询数据的程序运行在提交查询语句的节点上运行(不提交到集群上运行)原创 2019-12-09 22:10:24 · 763 阅读 · 0 评论 -
大数据-hive-分桶表的优点、分桶字段的要求-小记
优点:使取样(sampling)和join 更高效要求:分桶字段必须是表中已有的字段内原创 2019-12-05 20:05:11 · 1734 阅读 · 0 评论 -
大数据-hive-分区表的优点、分区字段的要求-小记
优点:提高特定(指定分区)查询分析的效率要求:分区字段不能出现在表中已有的字段内原创 2019-12-05 19:40:02 · 3352 阅读 · 0 评论 -
大数据-hive-内部表与外部表的区别-详解
删除内部表会直接删除元数据(metadata)及存储数据删除外部表仅仅会删除元数据,HDFS上的文件并不会被删除原创 2019-12-05 09:28:58 · 272 阅读 · 0 评论 -
大数据-hive-like与rlike的区别-小记
like的内容不是正则,而是通配符。rlike的内容可以是正则,正则写法与Java一样原创 2019-12-05 09:28:17 · 440 阅读 · 0 评论 -
大数据-hive-访问hive的方式-小记
1.hive2. 启动服务 hiveserver2前台启动cd /export/servers/hive-1.1.0-cdh5.14.0bin/hive --service hiveserver2后台启动cd /export/servers/hive-1.1.0-cdh5.14.0nohup bin/hive --service hiveserver2 &beelin...原创 2019-12-05 09:23:53 · 1145 阅读 · 0 评论 -
大数据-hive-支持的数据格式-小记
可支持Text,SequenceFile,ParquetFile,ORC,RCFILE等原创 2019-12-05 08:22:00 · 341 阅读 · 0 评论 -
大数据-hive-内部组成模块、作用-小记
元数据:Metastore元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等;默认存储在自带的derby数据库中,推荐使用MySQL存储Metastore (1)解析器(SQL Parser):解析HQL语义 (2)编译器(Physical Plan):将HQL根据语义转换成MR程序 (3)优化器(...原创 2019-12-03 15:35:12 · 2118 阅读 · 0 评论 -
大数据-hive-定义、意义-小记
1、什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)2、Hive的意义(最初研发的原因)避免了去写MapReduce,提供快速开发的能力,减少开发人员的学习成本。...原创 2019-12-03 15:21:35 · 381 阅读 · 0 评论