qingdsj-CSDN博客

原创 Hive如何优化可以提高运行效率

一、Fetch抓取Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是mo...

2020-01-14 12:17:52 1714

原创 hive之40分钟搞定数据仓库hive及java操作hive

1 hive简介1.1 什么是Hive？Hive是基于Hadoop HDFS之上的数据仓库。我们可以把数据存储在这个基于数据的仓库之中，进行分析和处理，完成我们的业务逻辑。本质上就是一个数据库它可以来保存我们的数据，Hive的数据仓库与传统意义上的数据仓库还有区别。一般来说，我们也可以基于传统方式（Oracle或者MySQL数据库）来搭建这个数据仓库，这个时候数据仓库中的数...

2020-01-13 14:12:29 1528

原创一文看懂大数据的技术生态圈，Hadoop，hive，spar

大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者刨子去皮。但是每个工具有自己的特性，虽然奇怪的组合也能工作，但是未必是最佳选择。大数据，首先你要能存的下大数据。传统的文件系统是单机的，不能横跨不...

2020-01-07 10:44:48 418

原创 Hive学习之Hive数据类型

Hive到0.13.0版本为止已经支持越来越多的数据类型，像传统数据库中的VCHAR、CHAR、DATE以及所特有的复合类型MAP、STRUCT等。Hive中的数据类型可以分为数值类型、字符串类型、日期时间类型、复合类型以及其它类型，下面分别予以介绍。数值类型Hive中的数值类型与Java中的数值类型很相似，区别在于有些类型的名称不一样，可以概括为如下的表格：默认情况下，整数...

2020-01-14 12:48:08 814

原创 Hive数据定义

HiveQL是Hive查询语言,作为ANSI SQL的一种方言。但是其还是有和关系数据库支持的SQL中有本质的差异。如：Hive不支持事务，且默认情况下不支持行级别插入，更新，删除操作。虽然可以在HiveQL中使用关联子句，但HiveQL中并没有主外键概念，也就没有强制的约束控制，这样数据的存储可以宽泛很多。Hive数据库Hive中的数据库概念本质上仅仅是目录或者命名空间，然而用户来说...

2020-01-14 12:46:40 388

原创 9-2.hive函数

hive函数内置函数hive操作复杂类型自定义函数自定义函数包括三种UDF、UDAF、UDTFUDF(User-Defined-Function) 一进一出UDAF(User- Defined Aggregation Funcation) 聚集函数，多进一出。Count/max/minUDTF(User-Defined Table-Generating Fun...

2020-01-14 12:44:41 268

原创如何将Hive与HBase整合联用

特别说明：该专栏文章均来源自微信公众号【大数据实战演练】，欢迎关注！版本说明：HDP：3.0.1.0Hive：3.1.0HBase：2.0.0一、前言之前学习 HBase 就有疑惑，HBase 虽然可以存储数亿或数十亿行数据，但是对于数据分析来说，不太友好，只提供了简单的基于 Key 值的快速查询能力，没法进行大量的条件查询。不过，Hive 与 HBase 的整合可...

2020-01-14 12:40:21 613

原创 Hive基础介绍

1.hive的基本概念Hadoop的一个数据仓库工具可以将结构化的数据文件映射为一张数据库表提供简单的SQL查询功能底层数据是存储在 HDFS上 Hive的本质是将 SQL 语句转换为 MapReduce任务执行元数据信息是存放在Mysql中，元数据{（表名字、表字段、表字段类型、存放在HDFS的位置）记录数据的数据。}2.为什么要使用hive为超大数据...

2020-01-14 12:16:33 435

原创数仓应用工具Hive：从底层设计窥见其优化策略

Hive介绍：官网上对Hive的介绍可以简单理解为：它是一款构建在Hadoop之上的数据仓库软件，将已存储的数据结构化（将数据库中的各个文件关联起来，形成一定的结构关系），并提供了类SQL查询语句HQL（Hive Query Language）对数据进行分析处理。Hive可以自动将HiveQL语句转换成一系列成MapReduce作业并执行，二不再需要程序员手动编写MR任务（SQL...

2020-01-14 12:15:01 421

简介：HIVE是数据仓库和交互式查询的优秀框架，但随着数据的增多，join的复杂度和性能问题，需要花时间和精力解决性能优化的问题。除了基于HIVE本身优化，还可以接入计算性能更好的框架，SparkSQL relational cache对使用者透明，开发不需要关心底层优化逻辑，将更多精力放入业务设计开发。作者：邓力，entobit技术总监，八年大数据从业经历，由一代HADOOP入坑，深耕云计...

2020-01-14 12:13:41 197

原创 Hive小技巧及优化

查询除了ds 和 hr 之外的所有列SELECT `(ds|hr)?+.+` FROM saleshttps://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select#LanguageManualSelect-REGEXColumnSpecification修改表生命周期(ODPS)ALTER TABLE...

2020-01-14 12:12:12 506

原创 hive大表优化

大表join大表优化如果Hive优化实战2中mapjoin中小表dim_seller很大呢？比如超过了1GB大小？这种就是大表join大表的问题。首先引入一个具体的问题场景，然后基于此介绍各自优化方案。5.1、问题场景问题场景如下：A表为一个汇总表，汇总的是卖家买家最近N天交易汇总信息，即对于每个卖家最近N天，其每个买家共成交了多少单，总金额是多少，假设N取90天，汇总值仅取成交单...

2020-01-14 12:10:58 1302

原创 HIVE常用函数大全

Hello 大家好，今天为大家分享下Hive的常用函数，不废话我们直接进入主题；Hive的常用函数主要包含以下几大类：关系运算数学运算逻辑运算数值运算日期运算条件函数字符串函数集合统计函数复合类型构建操作复杂类型访问操作复杂类型长度统计函数这里面我们不会全部为大家分享的，主要分享一些经常用的，更详细的大家可以参考如下链接：#本文来源下链...

2020-01-13 14:09:21 887

原创 Hive的分区

在Hive Select查询中一般会扫描整个表的内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中我们关心的一部分数据，因此建表时引入了partition概念。分区是一种根据“分区列”(partition column)的值对表进行粗略划分的机制。Hive中的每个分区对应数据库中相应分区列的一个索引，每个分区对应着表下的一个目录，在HDFS上的表现形式与表在HDFS上的表现形式相同，都是以子...

2020-01-13 14:08:06 787

原创如何在 Flink 1.9 中使用 Hive？

Apache Flink 从 1.9.0 版本开始增加了与 Hive 集成的功能，用户可以通过 Flink 来访问 Hive 的元数据，以及读写 Hive 中的表。本文将主要从项目的设计架构、最新进展、使用说明等方面来介绍这一功能。Flink on Hive 介绍SQL 是大数据领域中的重要应用场景，为了完善 Flink 的生态，发掘 Flink 在批处理方面的潜力，我们决定增强 Flin...

2020-01-13 14:06:24 241

原创 Hive 体系

1.1. hive基本思想Hive是基于Hadoop的一个数据仓库工具(离线)，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。1.2. 为什么使用HiveØ 直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短MapReduce实现复杂查询逻辑开发难度太大Ø 为什么要使用Hive操作接口采用类SQL语法，提供快速开发的能力。...

2020-01-13 14:04:38 247

原创 Hive的分析函数的使用

我们先准备数据库、表和数据开窗分析函数相对于mysql中的聚合函数区别是：分析函数是基于某个组多个数据进行计算聚合，而聚合函数是每个组返回一行数据。官网我们先做个例子感受下：要求: 查询部门编号为10的所有的员工，按照薪资降序排序Mysql实现：select empno,ename,deptno,sal from em...

2020-01-13 14:02:54 610

原创 Hive性能优化（全面）

1.介绍首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF，不怕数据倾斜问题,hadoop在map端的汇总合并优化...

2020-01-13 13:59:24 820

原创 Hive的导入导出和常用过滤语句的学习

数据的导入load data [local]创建数据表加载数据load data local inpath '/data/hivetest/stu_info_two' into table stu_info;加载HDFS数据，移动数据文件到表对应的目录我们先清空数据truncate table stu_info;将数据加载到HDFS上hd...

2020-01-13 13:57:55 370

原创走近大数据之Hive入门（一、概述）

一、数据仓库数据仓库是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合，它用于支持企业或组织的决策分析处理。OLTP应用：联机事务处理，关注的是事物的处理，典型的OLTP应用是银行转账，一般操作频率会比较高；OLAP应用：联机分析处理，主要面向的是查询，典型的OLAP应用是商品推荐系统，一般不会做删除和更新，数据一般都是历史数据。数据仓库中的数据模型：...

2020-01-13 13:55:19 261

原创 Hive中学习分析思路

我们先看我们的日志文件查看下，这就是我们的日志信息，我们可以设置日志格式从而得到不同的信息。我们现在有一个日志数据nginx_log,里面有十一个字段" 122.228.208.113""-""31/Aug/2015:00:04:37 +0800""GET /course/view.php?id=27 HTTP/1.1""303""440"-...

2020-01-13 13:53:41 260

原创为什么要用hive？

Hive是Hadoop生态系统中比不可少的一个工具，它提供了一种SQL(结构化查询语言)方言，可以查询存储在Hadoop分布式文件系统（HDFS）中的数据或其他和Hadoop集成的文件系统，如MapR-FS、Amazon的S3和像HBase（Hadoop数据仓库）和Cassandra这样的数据库中的数据。大多数数据仓库应用程序都是使用关系数据库进行实现的，并使用SQL作为查询语言。Hive降低...

2020-01-11 11:35:45 938

原创 Hive入门级教程（详细）

什么是HiveHive 是建立在 Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL ），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。 Hive是SQL解析引擎，它将SQL语句转译成M/R Job然后在Hadoop执行。 Hive的表其实就是HDFS的目录/文件，按表名把文件夹分开。如果是分区表，则分区值是子文件夹，可以...

2020-01-11 11:21:09 7166

原创 Hive的优化和压缩

使用之前的数据库执行语句explain select count(*) from emp;explain可以帮助我们看到有多少个任务会出现下面的信息根标签，操作语法树等信息根标签操作语法树之前在做日志分析的时候，创建表的语句，也有很多信息依赖，是会构成有向无环图的, 根据有向无环图会按照顺序执行job。这样也会造成执...

2020-01-11 11:19:49 688

原创 Hive精华问答 | Hive和传统数据库有什么不同？

Hive是一个数据仓库基础工具，它是建立在Hadoop之上的数据仓库，在某种程度上可以把它看做用户编程接口（API），本身也并不存储和处理数据，依赖于HDFS存储数据，依赖MR处理数据。它提供了一系列对数据进行提取、转换、加载的工具。依赖于HDFS存储数据，依赖MR处理数据。1Q：Hive和传统数据库有什么不同?各有什么试用场景。A：1、数据存储位置。Hive是建立在Hado...

2020-01-11 11:15:10 535 1

原创 Hive 数据类型和存储格式、建表操作

本文部分内容来源《Hadoop海量数据处理技术详解与项目实战》人民邮电出版社一、基本数据类型数据类型所占字节开始支持版本TINYINT1byte，-128 ~ 127SMALLINT2byte，-32,768 ~ 32,767INT4byte,-2,147,483,648 ~ 2,147,483,647BIGINT8byte,-9,223,372,036,854,775,808 ~ 9...

2020-01-11 11:13:38 2369

原创 Hive介绍与核心知识点

Hive介绍与核心知识点HiveHive简介Facebook为了解决海量日志数据的分析而开发了Hive，后来开源给了Apache软件基金会。官网定义：The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in di...

2020-01-11 10:53:25 371 1

原创 Hive常见问题及处理方法

Hive是什么 Hive是基于Hadoop的一个数据仓库工具，应该是整个Hadoop系统中最常使用的一个功能组件，通过内部的关系型元数据库，将存储在hdfs中的文件有效的管理起来，并提供类SQL的数据库操作语言，满足大数据集的统计分析工作。关于Hive的架构原理和基本操作部分. Hive操作中常见的问题及处理方法 1）如何在脚本中嵌入hive操作语句命令：hive -e “语句块” 案...

2020-01-11 10:40:34 1754

原创【生活现场】从电影字幕到hive工作原理解析

小史是一个非科班的程序员，虽然学的是电子专业，但是通过自己的努力成功通过了面试，现在要开始迎接新。找到工作到正式上班之间的这段时间总是惬意的，小史决定利用这段时间把一些经典电影重温一下。【hive简介】吕老师：这就要说到之前提到的OLTP和OLAP的概念了，数据仓库是用来做OLAP的，注重查询分析。并且数据仓库的数据量一般比数据库要大...

2020-01-11 10:38:18 452

原创 0738-6.2.0-如何在Hive中使用多分隔符

文档编写目的Hive在0.14及以后版本支持字段的多分隔符，参考:https://cwiki.apache.org/confluence/display/Hive/MultiDelimitSerDe而Fayson在以前的文章中也基于C5的环境介绍过如何在Hive中使用多分隔符，参考《Hive多分隔符支持示例》。本文主要介绍在CDH6中如何让Hive支持多分隔符。测试...

2020-01-11 10:14:30 218

原创快速了解hive

作为hadoop的一个数据仓库工具，hive的架构设计如下：可以看出，Hive的内部架构总共分为四大部分：1 用户接口层（cli、JDBC/ODBC、Web UI）(1) cli （Command Line Interface），shell终端命令行，通过命令行与hive进行交互；(2) JDBC/ODBC，是 Hive 的基于 JDBC 操作提供...

2020-01-11 10:00:02 431

原创 Hive的基本概念和常用命令

一、概念：1、结构化和非结构化数据结构化数据：固有的键值对非结构数据：没有固定的键值对，没有明确的映射关系所以就可以理解下面这句话：hive是由facebook开源用于解决海量结构化日志的数据统计项目。2、Hive是基于Hadoop文件系统上的数据仓库架构，它为数据仓库的管理提供了许多功能：数据ETL（抽取、转换和加载）、数据存储管理和大型数据集的查询和分析能力。RDBMS...

2020-01-09 12:03:51 284

原创初识Hive：3张图了解Hive的数据类型、架构图！

Hive是一个构建在Hadoop上的数据仓库框架，可以将结构化的数据文件，映射为一张数据库表，并提供完整的sql查询功能。可以将sql语句，转换为MapReduce任务进行运行。Hive选择Hadoop来存储和处理数据，因为Hadoop有较好的性价比。Hive设计的目标是让精通SQL技能(Java较弱的)分析师，能够从存放在HDFS的大规模数据集上，运行查询。Hive 一般在工作站上运行，...

2020-01-09 11:59:31 389

原创元数据与数据治理｜Hive安装与配置详解，整半天终于全明白了

本篇介绍hive的安装、配置、测试等内容希望对大家有所收获什么是hivehive是建立在hadoop上的，hadoop中的mapreduce调用如果面向DBA的时候，因为不是每个DBA都能明白mapreduce的工作原理，所以此时处于一种很尴尬的场景，毕竟精力有限，再学习mapreduce有点得不偿失。hive正是实现了这个，hive是要类SQL语句（HiveQL）来实现对hadoop...

2020-01-09 11:54:40 485

原创 Hive究竟是什么？

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析Facebook公司最早完成并开源了hive框架，可以将sql语句直接翻译成MapRe...

2020-01-09 11:51:17 1310

原创大数据教程：Hadoop+Hive进行航空公司客户价值分析

17年也可以说是大数据的一年，大数据一词在这些年横空崛起，Hadoop和Hive使用的越来越多，本期我们来学习下如何使用Hadoop和Hive对航空公司客户进行价值分析。航空公司通常会将客户划分成几种客户，如：重要保持客户、重要发展客户、重要挽留客户、一般客户和低价值客户。我们首先使用Hive对客户数据进行探索分析、数据预处理并且建立LRFMC模型，在使用Hadoop使用Kmeans对客户进行聚类...

2020-01-09 11:42:40 2525 2

原创大数据之Hive Mapper和Reducer数量设置

目的：深入认识hive 以mapreduce 为计算引擎时Mapper 和Reducer的设置背景;运营团队反映，公司广告业务的日活用户数据量偶尔呈剧烈下降趋势，同时出现用户数低于日活用户数据的问题，后来查看离线解析任务，执行过程正常但是数据的加载却除了问题——部分文件并没有加载到操作型数据库（提供数据展示的库，infobright）问题分析：由于load 数据时只加...

2020-01-09 11:40:45 3161

原创 hive与关系数据库到底有何差距

我最近研究了hive的相关技术，有点心得，这里和大家分享下。首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性：1.hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapRedu...

2020-01-09 11:32:41 451

原创 Hive介绍与核心知识点

Hive简介Facebook为了解决海量日志数据的分析而开发了Hive，后来开源给了Apache软件基金会。官网定义：The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage...

2020-01-09 11:29:51 166

原创 HiveSQL基本操作--实战篇

HiveSQL基本操作HIve目录一、Hive数据类型 1、基本类型 2、复杂类型二、存储格式 1、textfile 2、SequenceFile 3、RCFile 4、ORCFile 5、Parquet 三、操作数据库 1、创建数据库 2、删除数据库 3、进入数据库四、操作表属性 1、显示数据库下面所有表 2、删除表 3、显示建表结果 4、显...

2020-01-09 11:28:09 736

空空如也

空空如也