qingdsj
码龄5年
关注
提问 私信
  • 博客:43,428
    43,428
    总访问量
  • 48
    原创
  • 2,349,166
    排名
  • 8
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广西
  • 加入CSDN时间: 2019-12-30
博客简介:

大数据hive教程详解

博客描述:
大数据hive教程详解
查看详细资料
个人成就
  • 获得12次点赞
  • 内容获得4次评论
  • 获得102次收藏
创作历程
  • 48篇
    2020年
成就勋章
TA的专栏
  • 大数据
    48篇
  • 互联网
    48篇
  • 人工智能
    48篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive学习之Hive数据类型

Hive到0.13.0版本为止已经支持越来越多的数据类型,像传统数据库中的VCHAR、CHAR、DATE以及所特有的复合类型MAP、STRUCT等。Hive中的数据类型可以分为数值类型、字符串类型、日期时间类型、复合类型以及其它类型,下面分别予以介绍。数值类型Hive中的数值类型与Java中的数值类型很相似,区别在于有些类型的名称不一样,可以概括为如下的表格:默认情况下,整数...
原创
发布博客 2020.01.14 ·
745 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive数据定义

HiveQL是Hive查询语言,作为ANSI SQL的一种方言。但是其还是有和关系数据库支持的SQL中有本质的差异。如:Hive不支持事务,且默认情况下不支持行级别插入,更新,删除操作。虽然可以在HiveQL中使用关联子句,但HiveQL中并没有主外键概念,也就没有强制的约束控制,这样数据的存储可以宽泛很多。Hive数据库Hive中的数据库概念本质上仅仅是目录或者命名空间,然而用户来说...
原创
发布博客 2020.01.14 ·
329 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

9-2.hive函数

hive函数内置函数hive操作复杂类型自定义函数自定义函数包括三种UDF、UDAF、UDTFUDF(User-Defined-Function) 一进一出UDAF(User- Defined Aggregation Funcation) 聚集函数,多进一出。Count/max/minUDTF(User-Defined Table-Generating Fun...
原创
发布博客 2020.01.14 ·
184 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

如何将Hive与HBase整合联用

特别说明:该专栏文章均来源自微信公众号【大数据实战演练】,欢迎关注!版本说明:HDP:3.0.1.0Hive:3.1.0HBase:2.0.0一、前言之前学习 HBase 就有疑惑,HBase 虽然可以存储数亿或数十亿行数据,但是对于数据分析来说,不太友好,只提供了简单的基于 Key 值的快速查询能力,没法进行大量的条件查询。不过,Hive 与 HBase 的整合可...
原创
发布博客 2020.01.14 ·
569 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive如何优化可以提高运行效率

一、Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是mo...
原创
发布博客 2020.01.14 ·
1658 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive基础介绍

1.hive的基本概念Hadoop的一个数据仓库工具 可以将结构化的数据文件映射为一张数据库表 提供简单的SQL查询功能 底层数据是存储在 HDFS上 Hive的本质是将 SQL 语句转换为 MapReduce任务执行 元数据信息是存放在Mysql中,元数据{(表名字、表字段、表字段类型、存放在HDFS的位置)记录数据的数据。}2.为什么要使用hive为超大数据...
原创
发布博客 2020.01.14 ·
371 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数仓应用工具Hive:从底层设计窥见其优化策略

Hive介绍:官网上对Hive的介绍可以简单理解为:它是一款构建在Hadoop之上的数据仓库软件,将已存储的数据结构化(将数据库中的各个文件关联起来,形成一定的结构关系),并提供了类SQL查询语句HQL(Hive Query Language)对数据进行分析处理。Hive可以自动将HiveQL语句转换成一系列成MapReduce作业并执行,二不再需要程序员手动编写MR任务(SQL...
原创
发布博客 2020.01.14 ·
379 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

精品 | HIVE优化浅谈

简介:HIVE是数据仓库和交互式查询的优秀框架,但随着数据的增多,join的复杂度和性能问题,需要花时间和精力解决性能优化的问题。除了基于HIVE本身优化,还可以接入计算性能更好的框架,SparkSQL relational cache对使用者透明,开发不需要关心底层优化逻辑,将更多精力放入业务设计开发。作者:邓力,entobit技术总监,八年大数据从业经历,由一代HADOOP入坑,深耕云计...
原创
发布博客 2020.01.14 ·
159 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive小技巧及优化

查询除了ds 和 hr 之外的所有列SELECT `(ds|hr)?+.+` FROM saleshttps://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select#LanguageManualSelect-REGEXColumnSpecification修改表生命周期(ODPS)ALTER TABLE...
原创
发布博客 2020.01.14 ·
440 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

hive大表优化

大表join大表优化如果Hive优化实战2中mapjoin中小表dim_seller很大呢?比如超过了1GB大小?这种就是大表join大表的问题。首先引入一个具体的问题场景,然后基于此介绍各自优化方案。5.1、问题场景问题场景如下:A表为一个汇总表,汇总的是卖家买家最近N天交易汇总信息,即对于每个卖家最近N天,其每个买家共成交了多少单,总金额是多少,假设N取90天,汇总值仅取成交单...
原创
发布博客 2020.01.14 ·
1231 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

hive之40分钟搞定数据仓库hive及java操作hive

1 hive简介1.1 什么是Hive?Hive是基于Hadoop HDFS之上的数据仓库。我们可以把数据存储在这个基于数据的仓库之中,进行分析和处理,完成我们的业务逻辑。本质上就是一个数据库它可以来保存我们的数据,Hive的数据仓库与传统意义上的数据仓库还有区别。一般来说,我们也可以基于传统方式(Oracle或者MySQL数据库)来搭建这个数据仓库,这个时候数据仓库中的数...
原创
发布博客 2020.01.13 ·
1443 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

HIVE常用函数大全

Hello 大家好,今天为大家分享下Hive的常用函数,不废话我们直接进入主题;Hive的常用函数主要包含以下几大类:关系运算 数学运算 逻辑运算 数值运算 日期运算 条件函数 字符串函数 集合统计函数 复合类型构建操作 复杂类型访问操作 复杂类型长度统计函数这里面我们不会全部为大家分享的,主要分享一些经常用的,更详细的大家可以参考如下链接:#本文来源下链...
原创
发布博客 2020.01.13 ·
812 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

Hive的分区

在Hive Select查询中一般会扫描整个表的内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中我们关心的一部分数据,因此建表时引入了partition概念。分区是一种根据“分区列”(partition column)的值对表进行粗略划分的机制。Hive中的每个分区对应数据库中相应分区列的一个索引,每个分区对应着表下的一个目录,在HDFS上的表现形式与表在HDFS上的表现形式相同,都是以子...
原创
发布博客 2020.01.13 ·
728 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

如何在 Flink 1.9 中使用 Hive?

Apache Flink 从 1.9.0 版本开始增加了与 Hive 集成的功能,用户可以通过 Flink 来访问 Hive 的元数据,以及读写 Hive 中的表。本文将主要从项目的设计架构、最新进展、使用说明等方面来介绍这一功能。Flink on Hive 介绍SQL 是大数据领域中的重要应用场景,为了完善 Flink 的生态,发掘 Flink 在批处理方面的潜力,我们决定增强 Flin...
原创
发布博客 2020.01.13 ·
179 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive 体系

1.1. hive基本思想Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。1.2. 为什么使用HiveØ 直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短MapReduce实现复杂查询逻辑开发难度太大Ø 为什么要使用Hive操作接口采用类SQL语法,提供快速开发的能力。...
原创
发布博客 2020.01.13 ·
213 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive的分析函数的使用

我们先准备数据库、表和数据开窗分析函数相对于mysql中的聚合函数区别是:分析函数是基于某个组多个数据进行计算聚合,而聚合函数是每个组返回一行数据。官网我们先做个例子感受下:要求: 查询部门编号为10的所有的员工,按照薪资降序排序Mysql实现:select empno,ename,deptno,sal from em...
原创
发布博客 2020.01.13 ·
567 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

Hive性能优化(全面)

1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合并优化...
原创
发布博客 2020.01.13 ·
772 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive的导入导出和常用过滤语句的学习

数据的导入load data [local]创建数据表加载数据load data local inpath '/data/hivetest/stu_info_two' into table stu_info;加载HDFS数据,移动数据文件到表对应的目录我们先清空数据truncate table stu_info;将数据加载到HDFS上hd...
原创
发布博客 2020.01.13 ·
322 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

走近大数据之Hive入门(一、概述)

一、数据仓库数据仓库是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合,它用于支持企业或组织的决策分析处理。OLTP应用:联机事务处理,关注的是事物的处理,典型的OLTP应用是银行转账,一般操作频率会比较高;OLAP应用:联机分析处理,主要面向的是查询,典型的OLAP应用是商品推荐系统,一般不会做删除和更新,数据一般都是历史数据。数据仓库中的数据模型:...
原创
发布博客 2020.01.13 ·
221 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive中学习分析思路

我们先看我们的日志文件查看下,这就是我们的日志信息,我们可以设置日志格式从而得到不同的信息。我们现在有一个日志数据nginx_log,里面有十一个字段" 122.228.208.113""-""31/Aug/2015:00:04:37 +0800""GET /course/view.php?id=27 HTTP/1.1""303""440"-...
原创
发布博客 2020.01.13 ·
217 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多