hive
文章平均质量分 91
m0_71696030
这个作者很懒,什么都没留下…
展开
-
大数据技术之Hive 学习遇到 常见错误及解决方案
1)基本语法2)案例实操(1)查看下面这条语句的执行计划没有生成MR任务的有生成MR任务的(2)查看详细执行计划10.2 Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老原创 2022-06-09 04:30:36 · 807 阅读 · 0 评论 -
大数据技术之Hive 第10章 企业级调优
1)基本语法2)案例实操(1)查看下面这条语句的执行计划没有生成MR任务的有生成MR任务的(2)查看详细执行计划10.2 Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老原创 2022-06-09 04:30:00 · 104 阅读 · 0 评论 -
大数据技术之Hive 第9章 压缩和存储
为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示:压缩性能的比较:http://google.github.io/snappy/On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.要在Hadoop中启用压缩,可以配置如下参数(mapred-sit原创 2022-06-09 04:28:14 · 170 阅读 · 0 评论 -
大数据技术之Hive 第8章 函数 自定义函数UDF和UDTF
1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。2)当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。3)根据用户自定义函数类别分为以下三种:(1)UDF(User-Defined-Function) 一进一出(2)UDAF(User-Defined Aggregation Function) 聚集函数,多进一出 类似于:count/max/min(3)U原创 2022-06-08 03:23:57 · 243 阅读 · 0 评论 -
大数据技术之Hive 第8章 函数 系统内置函数
1)查看系统自带的函数2)显示自带的函数的用法3)详细显示自带的函数的用法8.2 常用内置函数8.2.1 空字段赋值1)函数说明NVL:给值为NULL的数据赋值,它的格式是NVL( value,default_value)。它的功能是如果value为NULL,则NVL函数返回default_value的值,否则返回value的值,如果两个参数都为NULL ,则返回NULL。2)数据准备:采用员工表3)查询:如果员工的comm为NULL,则用-1代替4)查询:如果员工的comm为NULL,则用领导原创 2022-06-08 03:23:23 · 116 阅读 · 0 评论 -
大数据技术之Hive 第7章 分区表和分桶表(优化)
分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。1)引入分区表(需要根据日期对日志进行管理, 通过部门信息模拟)2)创建分区表语法注意:分区字段不能是表中已经存在的数据,可以将分区字段看作表的伪列。3)加载数据到分区表中(1) 数据准备(2) 加载数据注意:分区表加载数据时,必须指定分区4)查询原创 2022-06-08 03:22:46 · 394 阅读 · 0 评论 -
大数据技术之Hive 第6章 查询 Join语句 和Order By 、Distribute By 、Sort By 、Cluster By
Hive支持通常的SQL JOIN语句。1)案例实操(1)根据员工表和部门表中的部门编号相等,查询员工编号、员工名称和部门名称;6.3.2 表的别名1)好处(1)使用别名可以简化查询。(2)使用表名前缀可以提高执行效率。2)案例实操合并员工表和部门表6.3.3 内连接内连接:只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。6.3.4 左外连接左外连接:JOIN操作符左边表中符合WHERE子句的所有记录将会被返回。6.3.5 右外连接右外连接:JOIN操作符右边表中符合WHE原创 2022-06-08 02:43:47 · 199 阅读 · 0 评论 -
大数据技术之Hive 第6章 查询 基本查询
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select查询语句语法:6.1 基本查询(Select…From)6.1.1 全表和特定列查询0)数据准备(0)原始数据dept:emp:(1)创建部门表(2)创建员工表(3)导入数据1)全表查询2)选择特定列查询注意:(1)SQL 语言大小写不敏感。(2)SQL 可以写在一行或者多行(3)关键字不能被缩写也不能分行(4)各子句一般要分行写。(5)使用缩进提高原创 2022-06-08 02:43:13 · 218 阅读 · 0 评论 -
大数据技术之Hive 第5章 DML数据操作语言
1)语法(1)load data:表示加载数据(2)local:表示从本地加载数据到hive表;否则从HDFS加载数据到hive表(3)inpath:表示加载数据的路径(4)overwrite:表示覆盖表中已有数据,否则表示追加(5)into table:表示加载到哪张表(6)student:表示具体的表(7)partition:表示上传到指定分区2)实操案例(0)创建一张表(1)加载本地文件到hive(2)加载HDFS文件到hive中上传文件到HDFS加载HDFS上数据(3)加原创 2022-06-08 02:42:36 · 69 阅读 · 0 评论 -
大数据技术之Hive 第4章 DDL数据定义语言
1)创建一个数据库,数据库在HDFS上的默认存储路径是。2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)3)创建一个数据库,指定数据库在HDFS上存放的位置4.2 查询数据库4.2.1 显示数据库1)显示数据库2)过滤显示查询的数据库4.2.2 查看数据库详情1)显示数据库信息2)显示数据库详细信息,extended4.2.3 切换当前数据库4.3 修改数据库用户可以使用ALTER DATABASE命令为某个数据库的DBPROPERTIES设置键原创 2022-06-08 02:41:36 · 111 阅读 · 0 评论 -
大数据技术之Hive 第3章 Hive数据类型 基本数据类型 和 集合数据类型
对于Hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB的字符数。Hive有三种复杂数据类型ARRAY、MAP 和 STRUCT。ARRAY和MAP与Java中的Array和Map类似,而STRUCT与C语言中的Struct类似,它封装了一个命名字段集合,复杂数据类型允许任意层次的嵌套。1)案例实操(1)假设某表有如下一行,我们用JSON格式来表示其数据结构。在Hive下访问的格式为(2)基于上述数据结构,我们原创 2022-06-08 02:40:32 · 215 阅读 · 0 评论 -
大数据技术之Hive 第2章 Hive安装 以及基本操作
0)为什么需要Mysql原因在于Hive默认使用的元数据库为derby,开启Hive之后就会占用元数据库,且不与其他客户端共享数据,如果想多窗口操作就会报错,操作比较局限。以我们需要将Hive的元数据地址改为MySQL,可支持多窗口操作。1)检查当前系统是否安装过Mysql2)将MySQL安装包拷贝到/opt/software目录下3)解压MySQL安装包4)在安装目录下执行rpm安装注意:按照顺序依次执行如果Linux是最小化安装的,在安装mysql-community-server-5.7.28原创 2022-06-08 02:39:55 · 296 阅读 · 0 评论 -
大数据技术之Hive 第1章 Hive基本概念
1)hive简介Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。2)Hive本质:将HQL转化成MapReduce程序(1)操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。(2)避免了去写MapReduce,减少开发人员的学习成本。(3)Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场合。(4)Hive优势在于处理大数据,对于处理小数据没有原创 2022-06-08 02:38:35 · 94 阅读 · 0 评论