Hive
文章平均质量分 83
weixin_42073629
这个作者很懒,什么都没留下…
展开
-
Hive 核心知识点
1请谈一下 Hive 的特点 hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 sql 查询功能,可以将 sql 语句转换为MapReduce 任务进行运行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析,但是 Hive 不支持实时查询。2Hive 底层与数据库交互原理?...转载 2022-04-11 07:12:13 · 211 阅读 · 0 评论 -
Spark SQL与Hive on Spark的比较
简要介绍了SparkSQL与HiveonSpark的区别与联系一、关于Spark简介在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题。架构Spark的架构如下图所示,主要包含四大组件:Driver、Master、Worker和Executor。Spark特点Spark可以部署在YARN上 Spark原生支持对HDFS文件系统的访问 使用Scala语言编写部署模型单机模型:主要用来开发测试。特点:Drive..原创 2021-07-11 14:05:46 · 726 阅读 · 0 评论 -
Hive为什么要启用Metastore
相关概念1.Metadata概念:元数据包含用Hive创建的database、table等的元信息。元数据存储在关系型数据库中。如Derby、MySQL等。2.Metastore作用:客户端连接metastore服务,metastore再去连接MySQL数据库来存取元数据。有了metastore服务,就可以有多个客户端同时连接,而且这些客户端不需要知道MySQL数据库的用户名和密码,只需要连接metastore 服务即可。 bin/hin --访问--> metaStore...原创 2021-07-05 00:05:53 · 1207 阅读 · 0 评论 -
Hive中MetaServer与HiveServer2的应用
在hive中有metaServer与hiveServer2两种服务,看了好多文章说这两个的区别,文章内容有对有错,不够全面,故在这里好好总结一下。首先,下面这个hive构架图,我们一定不陌生,它反应出hive有哪些组件结构当然下面的图是hadoop1的部分,现在JobTracker是Yarn了上面的部分是访问Hive的三个入口,1:直接Cli2: 通过JDBC3: webUI当我们要连接Hive进行操作时,首先必须是安装了,安装hive很简单,直接在conf/hive-site配原创 2021-07-05 00:02:58 · 239 阅读 · 0 评论 -
Hive四种数据导入详解
Hive的几种常见的数据导入方式这里介绍四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。一、从本地文件系统中导入数据到Hive表先在Hive里面创建好表,如下:hive> create table wyp > (id int, name string, > age int, tel原创 2020-12-07 20:29:59 · 166 阅读 · 0 评论 -
hive on tez
Tez说明将xyz替换为您正在使用的tez发行版号。例如0.5.0。对于Tez版本0.8.3和更高版本,Tez需要Apache Hadoop版本为2.6.0或更高版本。对于Tez版本0.9.0及更高版本,Tez需要Apache Hadoop版本为2.7.0或更高版本。关于版本1.Hadoop 2.7.0+(我的是2.7.1)2.Tez还需要Protocol Buffers 2.5.0,包括protoc编译器。(如果你下载的是apache-tez-0.9.0-src.tar.gz包则需要编译,需原创 2020-11-01 00:31:12 · 817 阅读 · 0 评论 -
Hive on Spark
简介本文主要记录如何安装配置Hive on Spark,在执行以下步骤之前,请先确保已经安装Hadoop集群,Hive,MySQL,JDK,Scala,具体安装步骤不再赘述。背景Hive默认使用MapReduce作为执行引擎,即Hive on mr。实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hive on Spark。由于MapReduce中间计算均需要写入磁盘,而Spark是放在内存中,所以总体来讲Spark比MapReduce快很多。因此,Hi转载 2020-10-29 00:36:11 · 1505 阅读 · 0 评论 -
Hive SQL综合案例
一 Hive SQL练习之影评案例案例说明现有如此三份数据:1、users.dat 数据格式为: 2::M::56::16::70072,共有6040条数据对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释:用户id,性别,年龄,职业,邮政编码2、movies.dat 数据格式为: 2::Jumanji (1995)::Adventure|Children's|Fa原创 2020-09-24 01:02:43 · 1353 阅读 · 0 评论 -
Hive(十)Hive性能调优总结
一、Fetch抓取1、理论分析Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit原创 2020-09-23 23:55:49 · 675 阅读 · 0 评论 -
Hive(九)Hive 执行过程实例分析
一、Hive 执行过程概述1、概述(1) Hive 将 HQL 转换成一组操作符(Operator),比如 GroupByOperator, JoinOperator 等(2)操作符 Operator 是 Hive 的最小处理单元(3)每个操作符代表一个 HDFS 操作或者 MapReduce 作业(4)Hive 通过 ExecMapper 和 ExecReducer 执行 MapReduce 程序,执行模式有本地模式和分 布式两种模式2、Hive 操作符列表3、Hive原创 2020-09-23 23:36:56 · 367 阅读 · 0 评论 -
Hive(八)Hive的Shell操作与压缩存储
一、Hive的命令行1、Hive支持的一些命令Command DescriptionquitUse quit or exit to leave the interactive shell.set key=valueUse this to set value of particular configuration variable. One thing to note here is that if you misspell the variable name, cli will not..原创 2020-09-23 23:20:48 · 431 阅读 · 0 评论 -
Hive(七)Hive分析窗口函数
一数据准备cookie1,2015-04-10,1cookie1,2015-04-11,5cookie1,2015-04-12,7cookie1,2015-04-13,3cookie1,2015-04-14,2cookie1,2015-04-15,4cookie1,2015-04-16,4创建数据库及表create database if not exists cookie;use cookie;drop table if exists cookie1;create ta.原创 2020-09-23 23:10:15 · 255 阅读 · 1 评论 -
Hive(六)内置函数与高级操作
一内置函数1 数学函数 Return Type Name (Signature) Description DOUBLE round(DOUBLE a) Returns the roundedBIGINTvalue ofa. 返回对a四舍五入的BIGINT值 DOUBLE round(DOUBLE a, INT d) ...原创 2020-09-23 01:20:47 · 542 阅读 · 0 评论 -
Hive(五)数据类型与库表操作以及中文乱码
一、数据类型1、基本数据类型Hive 支持关系型数据中大多数基本数据类型类型 描述 示例 boolean true/false TRUE tinyint 1字节的有符号整数 -128~127 1Y smallint 2个字节的有符号整数,-32768~32767 1S int 4个字节的带符号整数 1 bigint 8字节带符号整数 1L float 4字节单精度浮点数 1.0 dou原创 2020-09-23 00:48:24 · 454 阅读 · 0 评论 -
Hive(四)Hive的3种连接方式与DbVisualizer连接Hive
一、CLI连接进入到 bin 目录下,直接输入命令:[root@node21 ~]# hiveSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/opt/module/hive-2.3.3/lib/log4j-slf4j-impl-2.6.2.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J: Found binding原创 2020-09-22 23:44:53 · 538 阅读 · 0 评论 -
Hive(三)Hive元数据信息对应MySQL数据库表
概述Hive 的元数据信息通常存储在关系型数据库中,常用MySQL数据库作为元数据库管理。上一篇hive的安装也是将元数据信息存放在MySQL数据库中。Hive的元数据信息在MySQL数据中有57张表一、存储Hive版本的元数据表(VERSION)VERSION -- 查询版本信息该表比较简单,但很重要。VER_ID SCHEMA_VERSION VERSION_COMMENT ID主键 Hive版本 版本说明 1 2.3.0 ..原创 2020-09-22 23:18:36 · 730 阅读 · 1 评论 -
Hive(二)CentOS7.5安装Hive2.3.3
一 Hive的下载软件下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hive/这里下载的版本是:apache-hive-2.3.3-bin.tar.gz官方安装配置文档:https://cwiki.apache.org/confluence/display/Hive/GettingStarted二 Hive单用户安装远程Metastore数据库1 解压配置环境变量#解压指定位置安装[admin@node21 so...原创 2020-09-22 23:12:45 · 469 阅读 · 0 评论 -
Hive(一)Hive初识
一 Hive 简介什么是Hive1、Hive 由 Facebook 实现并开源2、是基于 Hadoop 的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供 HQL(Hive SQL)查询功能5、底层数据是存储在 HDFS 上6、Hive的本质是将 SQL 语句转换为 MapReduce 任务运行7、使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据,适用于离线的批量数据计算。 数据仓库之父比尔·恩门(Bil原创 2020-09-22 21:55:09 · 238 阅读 · 0 评论 -
数据仓库基本理论
一数据仓库的概念1什么是数据仓库数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。2数据仓库能干什么?1)年度销售目标的指定,需要根据以往的历史报表进行决策,不能拍脑袋。2)如何优化业务流程例如:一个电商网站订单的完成包括:浏览、下单、支付、物流,其中物流环节可能和中通、申...原创 2020-09-22 21:50:15 · 797 阅读 · 0 评论 -
Hive —— 安装部署
一、安装Hive1.1 下载并解压下载所需版本的 Hive,这里我下载版本为cdh5.15.2。下载地址:http://archive.cloudera.com/cdh5/cdh/5/# 下载后进行解压 tar -zxvf hive-1.1.0-cdh5.15.2.tar.gz1.2 配置环境变量vim /etc/profile添加环境变量:export HIVE_HOME=/usr/app/hive-1.1.0-cdh5.15.2export PATH=$HIV...原创 2020-08-13 23:45:11 · 426 阅读 · 0 评论