- 博客(48)
- 收藏
- 关注
原创 Hive如何优化可以提高运行效率
一、Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是mo...
2020-01-14 12:17:52 1647
原创 hive之40分钟搞定数据仓库hive及java操作hive
1 hive简介1.1 什么是Hive?Hive是基于Hadoop HDFS之上的数据仓库。我们可以把数据存储在这个基于数据的仓库之中,进行分析和处理,完成我们的业务逻辑。本质上就是一个数据库它可以来保存我们的数据,Hive的数据仓库与传统意义上的数据仓库还有区别。一般来说,我们也可以基于传统方式(Oracle或者MySQL数据库)来搭建这个数据仓库,这个时候数据仓库中的数...
2020-01-13 14:12:29 1432
原创 一文看懂大数据的技术生态圈,Hadoop,hive,spar
大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。大数据,首先你要能存的下大数据。传统的文件系统是单机的,不能横跨不...
2020-01-07 10:44:48 348
原创 Hive学习之Hive数据类型
Hive到0.13.0版本为止已经支持越来越多的数据类型,像传统数据库中的VCHAR、CHAR、DATE以及所特有的复合类型MAP、STRUCT等。Hive中的数据类型可以分为数值类型、字符串类型、日期时间类型、复合类型以及其它类型,下面分别予以介绍。数值类型Hive中的数值类型与Java中的数值类型很相似,区别在于有些类型的名称不一样,可以概括为如下的表格:默认情况下,整数...
2020-01-14 12:48:08 724
原创 Hive数据定义
HiveQL是Hive查询语言,作为ANSI SQL的一种方言。但是其还是有和关系数据库支持的SQL中有本质的差异。如:Hive不支持事务,且默认情况下不支持行级别插入,更新,删除操作。虽然可以在HiveQL中使用关联子句,但HiveQL中并没有主外键概念,也就没有强制的约束控制,这样数据的存储可以宽泛很多。Hive数据库Hive中的数据库概念本质上仅仅是目录或者命名空间,然而用户来说...
2020-01-14 12:46:40 320
原创 9-2.hive函数
hive函数内置函数hive操作复杂类型自定义函数自定义函数包括三种UDF、UDAF、UDTFUDF(User-Defined-Function) 一进一出UDAF(User- Defined Aggregation Funcation) 聚集函数,多进一出。Count/max/minUDTF(User-Defined Table-Generating Fun...
2020-01-14 12:44:41 179
原创 如何将Hive与HBase整合联用
特别说明:该专栏文章均来源自微信公众号【大数据实战演练】,欢迎关注!版本说明:HDP:3.0.1.0Hive:3.1.0HBase:2.0.0一、前言之前学习 HBase 就有疑惑,HBase 虽然可以存储数亿或数十亿行数据,但是对于数据分析来说,不太友好,只提供了简单的基于 Key 值的快速查询能力,没法进行大量的条件查询。不过,Hive 与 HBase 的整合可...
2020-01-14 12:40:21 559
原创 Hive基础介绍
1.hive的基本概念Hadoop的一个数据仓库工具 可以将结构化的数据文件映射为一张数据库表 提供简单的SQL查询功能 底层数据是存储在 HDFS上 Hive的本质是将 SQL 语句转换为 MapReduce任务执行 元数据信息是存放在Mysql中,元数据{(表名字、表字段、表字段类型、存放在HDFS的位置)记录数据的数据。}2.为什么要使用hive为超大数据...
2020-01-14 12:16:33 359
原创 数仓应用工具Hive:从底层设计窥见其优化策略
Hive介绍:官网上对Hive的介绍可以简单理解为:它是一款构建在Hadoop之上的数据仓库软件,将已存储的数据结构化(将数据库中的各个文件关联起来,形成一定的结构关系),并提供了类SQL查询语句HQL(Hive Query Language)对数据进行分析处理。Hive可以自动将HiveQL语句转换成一系列成MapReduce作业并执行,二不再需要程序员手动编写MR任务(SQL...
2020-01-14 12:15:01 366
原创 精品 | HIVE优化浅谈
简介:HIVE是数据仓库和交互式查询的优秀框架,但随着数据的增多,join的复杂度和性能问题,需要花时间和精力解决性能优化的问题。除了基于HIVE本身优化,还可以接入计算性能更好的框架,SparkSQL relational cache对使用者透明,开发不需要关心底层优化逻辑,将更多精力放入业务设计开发。作者:邓力,entobit技术总监,八年大数据从业经历,由一代HADOOP入坑,深耕云计...
2020-01-14 12:13:41 157
原创 Hive小技巧及优化
查询除了ds 和 hr 之外的所有列SELECT `(ds|hr)?+.+` FROM saleshttps://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select#LanguageManualSelect-REGEXColumnSpecification修改表生命周期(ODPS)ALTER TABLE...
2020-01-14 12:12:12 431
原创 hive大表优化
大表join大表优化如果Hive优化实战2中mapjoin中小表dim_seller很大呢?比如超过了1GB大小?这种就是大表join大表的问题。首先引入一个具体的问题场景,然后基于此介绍各自优化方案。5.1、问题场景问题场景如下:A表为一个汇总表,汇总的是卖家买家最近N天交易汇总信息,即对于每个卖家最近N天,其每个买家共成交了多少单,总金额是多少,假设N取90天,汇总值仅取成交单...
2020-01-14 12:10:58 1210
原创 HIVE常用函数大全
Hello 大家好,今天为大家分享下Hive的常用函数,不废话我们直接进入主题;Hive的常用函数主要包含以下几大类:关系运算 数学运算 逻辑运算 数值运算 日期运算 条件函数 字符串函数 集合统计函数 复合类型构建操作 复杂类型访问操作 复杂类型长度统计函数这里面我们不会全部为大家分享的,主要分享一些经常用的,更详细的大家可以参考如下链接:#本文来源下链...
2020-01-13 14:09:21 781
原创 Hive的分区
在Hive Select查询中一般会扫描整个表的内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中我们关心的一部分数据,因此建表时引入了partition概念。分区是一种根据“分区列”(partition column)的值对表进行粗略划分的机制。Hive中的每个分区对应数据库中相应分区列的一个索引,每个分区对应着表下的一个目录,在HDFS上的表现形式与表在HDFS上的表现形式相同,都是以子...
2020-01-13 14:08:06 709
原创 如何在 Flink 1.9 中使用 Hive?
Apache Flink 从 1.9.0 版本开始增加了与 Hive 集成的功能,用户可以通过 Flink 来访问 Hive 的元数据,以及读写 Hive 中的表。本文将主要从项目的设计架构、最新进展、使用说明等方面来介绍这一功能。Flink on Hive 介绍SQL 是大数据领域中的重要应用场景,为了完善 Flink 的生态,发掘 Flink 在批处理方面的潜力,我们决定增强 Flin...
2020-01-13 14:06:24 176
原创 Hive 体系
1.1. hive基本思想Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。1.2. 为什么使用HiveØ 直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短MapReduce实现复杂查询逻辑开发难度太大Ø 为什么要使用Hive操作接口采用类SQL语法,提供快速开发的能力。...
2020-01-13 14:04:38 205
原创 Hive的分析函数的使用
我们先准备数据库、表和数据开窗分析函数相对于mysql中的聚合函数区别是:分析函数是基于某个组多个数据进行计算聚合,而聚合函数是每个组返回一行数据。官网我们先做个例子感受下:要求: 查询部门编号为10的所有的员工,按照薪资降序排序Mysql实现:select empno,ename,deptno,sal from em...
2020-01-13 14:02:54 555
原创 Hive性能优化(全面)
1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合并优化...
2020-01-13 13:59:24 760
原创 Hive的导入导出和常用过滤语句的学习
数据的导入load data [local]创建数据表加载数据load data local inpath '/data/hivetest/stu_info_two' into table stu_info;加载HDFS数据,移动数据文件到表对应的目录我们先清空数据truncate table stu_info;将数据加载到HDFS上hd...
2020-01-13 13:57:55 311
原创 走近大数据之Hive入门(一、概述)
一、数据仓库数据仓库是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合,它用于支持企业或组织的决策分析处理。OLTP应用:联机事务处理,关注的是事物的处理,典型的OLTP应用是银行转账,一般操作频率会比较高;OLAP应用:联机分析处理,主要面向的是查询,典型的OLAP应用是商品推荐系统,一般不会做删除和更新,数据一般都是历史数据。数据仓库中的数据模型:...
2020-01-13 13:55:19 216
原创 Hive中学习分析思路
我们先看我们的日志文件查看下,这就是我们的日志信息,我们可以设置日志格式从而得到不同的信息。我们现在有一个日志数据nginx_log,里面有十一个字段" 122.228.208.113""-""31/Aug/2015:00:04:37 +0800""GET /course/view.php?id=27 HTTP/1.1""303""440"-...
2020-01-13 13:53:41 214
原创 为什么要用hive?
Hive是Hadoop生态系统中比不可少的一个工具,它提供了一种SQL(结构化查询语言)方言,可以查询存储在Hadoop分布式文件系统(HDFS)中的数据或其他和Hadoop集成的文件系统,如MapR-FS、Amazon的S3和像HBase(Hadoop数据仓库)和Cassandra这样的数据库中的数据。大多数数据仓库应用程序都是使用关系数据库进行实现的,并使用SQL作为查询语言。Hive降低...
2020-01-11 11:35:45 889
原创 Hive入门级教程(详细)
什么是HiveHive 是建立在 Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。 Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后在Hadoop执行。 Hive的表其实就是HDFS的目录/文件,按表名把文件夹分开。如果是分区表,则分区值是子文件夹,可以...
2020-01-11 11:21:09 6931
原创 Hive的优化和压缩
使用之前的数据库执行语句explain select count(*) from emp;explain可以帮助我们看到有多少个任务会出现下面的信息根标签,操作语法树等信息根标签操作语法树之前在做日志分析的时候,创建表的语句,也有很多信息依赖,是会构成有向无环图的, 根据有向无环图会按照顺序执行job。这样也会造成执...
2020-01-11 11:19:49 635
原创 Hive精华问答 | Hive和传统数据库有什么不同?
Hive是一个数据仓库基础工具,它是建立在Hadoop之上的数据仓库,在某种程度上可以把它看做用户编程接口(API),本身也并不存储和处理数据,依赖于HDFS存储数据,依赖MR处理数据。它提供了一系列对数据进行提取、转换、加载的工具。依赖于HDFS存储数据,依赖MR处理数据。1Q:Hive和传统数据库有什么不同?各有什么试用场景。A:1、数据存储位置。Hive是建立在Hado...
2020-01-11 11:15:10 454 1
原创 Hive 数据类型和存储格式、建表操作
本文部分内容来源《Hadoop海量数据处理 技术详解与项目实战》人民邮电出版社一、 基本数据类型数据类型所占字节开始支持版本TINYINT1byte,-128 ~ 127SMALLINT2byte,-32,768 ~ 32,767INT4byte,-2,147,483,648 ~ 2,147,483,647BIGINT8byte,-9,223,372,036,854,775,808 ~ 9...
2020-01-11 11:13:38 2265
原创 Hive介绍与核心知识点
Hive介绍与核心知识点HiveHive简介Facebook为了解决海量日志数据的分析而开发了Hive,后来开源给了Apache软件基金会。官网定义:The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in di...
2020-01-11 10:53:25 318 1
原创 Hive常见问题及处理方法
Hive是什么 Hive是基于Hadoop的一个数据仓库工具,应该是整个Hadoop系统中最常使用的一个功能组件,通过内部的关系型元数据库,将存储在hdfs中的文件有效的管理起来,并提供类SQL的数据库操作语言,满足大数据集的统计分析工作。关于Hive的架构原理和基本操作部分. Hive操作中常见的问题及处理方法 1)如何在脚本中嵌入hive操作语句 命令:hive -e “语句块” 案...
2020-01-11 10:40:34 1621
原创 【生活现场】从电影字幕到hive工作原理解析
小史是一个非科班的程序员,虽然学的是电子专业,但是通过自己的努力成功通过了面试,现在要开始迎接新。找到工作到正式上班之间的这段时间总是惬意的,小史决定利用这段时间把一些经典电影重温一下。【hive简介】吕老师:这就要说到之前提到的OLTP和OLAP的概念了,数据仓库是用来做OLAP的,注重查询分析。并且数据仓库的数据量一般比数据库要大...
2020-01-11 10:38:18 410
原创 0738-6.2.0-如何在Hive中使用多分隔符
文档编写目的Hive在0.14及以后版本支持字段的多分隔符,参考:https://cwiki.apache.org/confluence/display/Hive/MultiDelimitSerDe而Fayson在以前的文章中也基于C5的环境介绍过如何在Hive中使用多分隔符,参考《Hive多分隔符支持示例》。本文主要介绍在CDH6中如何让Hive支持多分隔符。测试...
2020-01-11 10:14:30 178
原创 快速了解hive
作为hadoop的一个数据仓库工具,hive的架构设计如下:可以看出,Hive的内部架构总共分为四大部分:1 用户接口层(cli、JDBC/ODBC、Web UI)(1) cli (Command Line Interface),shell终端命令行,通过命令行与hive进行交互;(2) JDBC/ODBC,是 Hive 的基于 JDBC 操作提供...
2020-01-11 10:00:02 326
原创 Hive的基本概念和常用命令
一、概念:1、结构化和非结构化数据结构化数据:固有的键值对非结构数据:没有固定的键值对,没有明确的映射关系所以就可以理解下面这句话:hive是由facebook开源用于解决海量结构化日志的数据统计项目。2、Hive是基于Hadoop文件系统上的数据仓库架构,它为数据仓库的管理提供了许多功能:数据ETL(抽取、转换和加载)、数据存储管理和大型数据集的查询和分析能力。RDBMS...
2020-01-09 12:03:51 235
原创 初识Hive:3张图了解Hive的数据类型、架构图!
Hive是一个构建在Hadoop上的数据仓库框架,可以将结构化的数据文件,映射为一张数据库表,并提供完整的sql查询功能。可以将sql语句,转换为MapReduce任务进行运行。Hive选择Hadoop来存储和处理数据,因为Hadoop有较好的性价比。Hive设计的目标是让精通SQL技能(Java较弱的)分析师,能够从存放在HDFS的大规模数据集上,运行查询。Hive 一般在工作站上运行,...
2020-01-09 11:59:31 302
原创 元数据与数据治理|Hive安装与配置详解,整半天终于全明白了
本篇介绍hive的安装、配置、测试等内容希望对大家有所收获什么是hivehive是建立在hadoop上的,hadoop中的mapreduce调用如果面向DBA的时候,因为不是每个DBA都能明白mapreduce的工作原理,所以此时处于一种很尴尬的场景,毕竟精力有限,再学习mapreduce有点得不偿失。hive正是实现了这个,hive是要类SQL语句(HiveQL)来实现对hadoop...
2020-01-09 11:54:40 435
原创 Hive究竟是什么?
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析Facebook公司最早完成并开源了hive框架,可以将sql语句直接翻译成MapRe...
2020-01-09 11:51:17 1227
原创 大数据教程:Hadoop+Hive进行航空公司客户价值分析
17年也可以说是大数据的一年,大数据一词在这些年横空崛起,Hadoop和Hive使用的越来越多,本期我们来学习下如何使用Hadoop和Hive对航空公司客户进行价值分析。航空公司通常会将客户划分成几种客户,如:重要保持客户、重要发展客户、重要挽留客户、一般客户和低价值客户。我们首先使用Hive对客户数据进行探索分析、数据预处理并且建立LRFMC模型,在使用Hadoop使用Kmeans对客户进行聚类...
2020-01-09 11:42:40 2382 2
原创 大数据之Hive Mapper和Reducer数量设置
目的:深入认识hive 以mapreduce 为计算引擎时Mapper 和Reducer的设置背景;运营团队反映,公司广告业务的日活用户数据量偶尔呈剧烈下降趋势,同时出现用户数低于日活用户数据的问题,后来查看离线解析任务,执行过程正常但是数据的加载却除了问题——部分文件并没有加载到操作型数据库(提供数据展示的库,infobright)问题分析:由于load 数据时只加...
2020-01-09 11:40:45 3036
原创 hive与关系数据库到底有何差距
我最近研究了hive的相关技术,有点心得,这里和大家分享下。首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性:1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapRedu...
2020-01-09 11:32:41 392
原创 Hive介绍与核心知识点
Hive简介Facebook为了解决海量日志数据的分析而开发了Hive,后来开源给了Apache软件基金会。官网定义:The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage...
2020-01-09 11:29:51 120
原创 HiveSQL基本操作--实战篇
HiveSQL基本操作HIve目录一、Hive数据类型 1、基本类型 2、复杂类型 二、存储格式 1、textfile 2、SequenceFile 3、RCFile 4、ORCFile 5、Parquet 三、操作数据库 1、创建数据库 2、删除数据库 3、进入数据库 四、操作表属性 1、显示数据库下面所有表 2、删除表 3、显示建表结果 4、显...
2020-01-09 11:28:09 649
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人