![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 74
王树民
大JAVA
展开
-
Hive SQL控制map数和reduce数
在设置动态分区后,产生的文件数会取决于map数和分区数的大小,假设动态分区初始有N个map数,同时生成M个分区,则中间会生成N*M个文件,通常这种情况就是让大部分数据尽量输出到一个reduce中进行处理,但是有些HiveSql不会产生reduce,也就是说文件最后没有进行合并处理,这种情况下可以用distribute by rand()的方式保证数据进行一次reduce操作,实现文件的合并。备注:set设置的参数是生成的文件个数,distribute by rand()保证数据随机分配到50个文件中。原创 2023-06-06 13:39:30 · 466 阅读 · 0 评论 -
Hive SQL底层执行过程详细剖析
Hive SQL底层执行过程详细剖析7年老码农,10W关注者。【Java与大数据架构】全面分享Java编程、Spark、Flink、Kafka、Elasticsearch、数据湖等干货。8篇原创内容公众号本文结构采用宏观着眼,微观入手,从整体到细节的方式剖析 Hive SQL 底层原理。第一节先介绍 Hive 底层的整体执行流程,然后第二节介绍执行流程中的 SQL 编译成 MapReduce 的过程,第三节剖析 SQL 编译成 MapReduce 的具体实现原理。HiveH.转载 2021-06-15 10:12:28 · 1987 阅读 · 0 评论 -
hive 数据倾斜、优化策略、hive执行过程、垃圾回收
文章目录1. 数据倾斜 1.1 什么是数据倾斜? 1.2 容易数据倾斜情况 1.3 产生数据倾斜的原因 1.4 不会产生数据倾斜的情况 1.5 业务场景 1.5.1 空值产生的数据倾斜 1.5.2 不同数据类型关联产生数据倾斜 1.5.1 大小表关联查询产生数据倾斜 2. hive执行过程实例分析 2.1 Hive 操作符列表 2.2 Hive 编译器的工作职责 2.3 优化器类型 2.4 hive查看执行过程...原创 2020-10-28 10:46:09 · 427 阅读 · 0 评论 -
hive数据倾斜优化策略
hive数据倾斜优化策略Hive数据倾斜Group By 中的计算均衡优化1.Map端部分聚合先看看下面这条SQL,由于用户的性别只有男和女两个值 (未知)。如果没有map端的部分聚合优化,map直接把groupby_key 当作reduce_key发送给reduce做聚合,就会导致计算不均衡的现象。虽然map有100万个,但是reduce只有两个在做聚合,每个reduce处理100亿条记录。 selectuser.gender,count(1) f...原创 2020-10-28 10:43:00 · 294 阅读 · 0 评论 -
数据仓库
数据仓库的目标是实现集成、稳定、反映历史变化有组织有结构的存储数据的集合。图 1-1 数据仓库基本架构如上图所示,一个公司可能有多个业务系统,而数据仓库就是将所有的业务系统按照某种组织架构整合起来,形成一个仓储平台,也就是数仓。ODS 层中的数据全部来自于业务数据库,ODS 层的表格与业务数据库中的表格一一对应,就是将业务数据库中的表格在数据仓库的底层重新建立一次,数据与结构完全一致。DWD 层要做的就是将数据清理、整合、规范化,脏数据、垃圾数据、规范不一致的、状态定义不一致的、命名不.原创 2020-05-14 11:32:13 · 1199 阅读 · 0 评论 -
JVM性能调优监控工具jps、jstack、jmap、jhat、jstat使用详解
JDK本身提供了很多方便的JVM性能调优监控工具,除了集成式的VisualVM和jConsole外,还有jps、jstack、jmap、jhat、jstat等小巧的工具,本博客希望能起抛砖引玉之用,让大家能开始对JVM性能调优的常用工具有所了解。 现实企业级Java开发中,有时候我们会碰到下面这些问题: OutOfMemoryError,内存不足 内存泄露 ...转载 2018-09-08 12:32:22 · 864 阅读 · 0 评论 -
hive 简单优化
基本语法基本数据类型hive支持多种不同长度的整型和浮点型数据,支持布尔型,也支持无长度限制的字符串类型。例如:TINYINT、SMALINT、BOOLEAN、FLOAT、DOUBLE、STRING等基本数据类型。这些基本数据类型和其他sql方言一样,都是保留字。集合数据类型hive中的列支持使用struct、map和array集合数据类型。大多数关系型数据库中不支持这些集...原创 2018-09-02 19:06:33 · 186 阅读 · 0 评论 -
hive分区表
hive分区表2017年07月17日 00:32:10 阅读数:994 标签: hive 数据 分区表 更多个人分类: hive 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u010521842/article/details/75213503分区表1 为什么出现分区表?假设有海量的数据保存在hdfs的某一个hive表...转载 2018-09-04 17:39:15 · 355 阅读 · 0 评论 -
[一起学Hive]之五-Hive的视图和分区
lxw的大数据田地 Hadoop/Hive/HBase/Spark/Java首页 Hadoop Spark Hive Kafka Flume 大数据平台 Kylin 专题文章 Spark算子 一起学Hive Hive存储过程 Hive分析函数 Spark On Yarn 数据仓库/数据库 其他 关于lxw 赞助作者 自动化运维 编程语言...转载 2018-08-29 21:34:10 · 565 阅读 · 0 评论 -
导入数据到hive外部表
导入数据到hive外部表;1.hive命令创建外部表。create EXTERNAL table applogsnew(applogid string,msgtype string,clienttype string,userid bigint)PARTITIONED BY (create_time string) row format delimitedfields te...转载 2018-09-04 13:26:36 · 5229 阅读 · 0 评论 -
[一起学Hive]之六-Hive的动态分区
[一起学Hive]之六-Hive的动态分区博客分类: hivehivehive动态分区 前面文章介绍了Hive中是支持分区的。 关系型数据库(如Oracle)中,对分区表Insert数据时候,数据库自动会根据分区字段的值,将数据插入到相应的分区中,Hive中也提供了类似的机制,即动态分区(Dynamic Partition),只不过,使用Hive的动态分...转载 2018-08-29 21:15:28 · 400 阅读 · 0 评论 -
利用shell脚本监控linux中CPU、内存和磁盘利用率。(centos7)
利用shell脚本监控linux中CPU、内存和磁盘利用率。(centos7)2017年11月21日 11:42:00 阅读数:182 这篇博客中所写的,在实际工作中并没有什么卵用,工作中并不会用到这种脚本去监控。不过自己写一遍,可以让初学者对CPU、内存、磁盘等一些基础知识和基础命令更加了解。1、利用vmstat工具监控CPU详细信息,然后基于/proc/stat计算CPU利用率进...转载 2018-08-31 09:21:29 · 21167 阅读 · 1 评论 -
linux监控cpu和内存使用情况,发送邮件
linux监控cpu和内存使用情况,发送邮件2018年08月01日 16:06:45 阅读数:66更多个人分类: Linux目录1.整体架构图2.代码3.邮件发送过慢的问题这几天老大安排做linux服务器的工具,又接了几个巨坑,不过还是get新技能点。1.整体架构图 主要功能 :监控linux的cpu和内存使用率,当频率过高时,发送邮件提醒功能。 ...转载 2018-08-31 08:51:32 · 1418 阅读 · 0 评论 -
执行hive -e sql 报错
at org.apache.hadoop.util.RunJar.main(RunJar.java:212)FAILED: ParseException line 1:6 cannot recognize input near '<EOF>' '<EOF>' '<EOF>' in select clause[wangshumin@centoshostnameK...原创 2018-05-04 11:36:27 · 2129 阅读 · 0 评论 -
hive 之start hiveServer2 ,thriftServer失败
hive 之start hiveServer2 ,thriftServer失败报错信息如下:ERROR org.apache.hive.service.cli.thrift.ThriftCLIService: [Thread-11]: Error starting HiveServer2: could not start ThriftBinaryCLIServiceorg.apache...转载 2018-09-08 18:08:16 · 3028 阅读 · 0 评论 -
Hive Dynamic Partition
2017年02月09日 13:30:11 阅读数:2139 标签: hive 更多个人分类: hive 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_26937525/article/details/54946281简介本文介绍Hive动态分区表的使用作用如果我们按天去insert分区数据,那么我们可以去指定...转载 2018-09-08 18:08:43 · 2602 阅读 · 0 评论 -
Hive-JSON 原始数据映射 Hive 表结构
2017年08月18日 15:29:35 阅读数:1446 标签: hive json hadoop 大数据 更多个人分类: 大数据-Hive 版权声明:本文为博主原创文章,转载请注明出处。 https://blog.csdn.net/u011278496/article/details/77370460 参考文档 https://cwiki.apache.org...转载 2018-09-09 18:32:35 · 1395 阅读 · 0 评论 -
利用Hive进行数据分析
利用Hive进行数据分析2016年07月06日 21:30:20 wh_springer 阅读数:16516近十年来,随着Hadoop生态系统的不断完善,Hadoop早已成为大数据事实上的行业标准之一。面对当今互联网产生的巨大的TB甚至PB级原始数据,利用基于Hadoop的数据仓库解决方案Hive早已是Hadoop的热点应用之一。达观数据团队长期致力于研究和积累Hadoop系统的技术和经验...转载 2019-02-26 10:04:31 · 7463 阅读 · 0 评论 -
MapReduce shuffle过程剖析及调优
MapReduce shuffle过程剖析及调优2016年07月18日 01:48:03 Lust-Ring 阅读数:10424 标签: mapreducehadoop 更多个人分类: Hadoop版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/bingduanlbd/article/details/51933914更新记录20...转载 2019-02-25 13:17:01 · 193 阅读 · 0 评论 -
Hive数据倾斜解决办法总结
Hive数据倾斜解决办法总结我的知乎:DarrenChan陈驰数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。数据倾斜其实是进行分布式计算的时候,某些节点的计算能力比较强或者需要计算的数据比较少,早早执行完了,某些节点计算的能力较差或者由于此节点需要计...转载 2019-02-12 12:30:36 · 254 阅读 · 0 评论 -
Hive数据倾斜
Hive数据倾斜map/reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完,此称之为数据倾斜。1.万能膏药:hive.groupby.skewin...转载 2019-02-12 08:44:21 · 260 阅读 · 1 评论 -
Java操作Sqoop对象
2016年12月08日 17:40:20 阅读数:6167 标签: sqoop eclipse java windows hadoop 更多个人分类: Sqoop 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sl1992/article/details/53521819 1.配置pom.xml文件 2.Windows下...转载 2018-09-07 14:52:13 · 1168 阅读 · 1 评论 -
Hive2.0函数大全(中文版)
摘要Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。 目录数学函数 集合函数 类型转换函数 日期函数 条件函数 字符函数 聚合函数 表生成函数 数学函数 Return Type Name (Signature) ...转载 2018-09-07 12:43:28 · 127 阅读 · 0 评论 -
Beeline 要与HiveServer2配合使用,支持嵌入模式和远程模式
启动HiverServer2 , ./bin/hiveserver2 启动Beeline wangyue@wangyue-um:~/opt/hive/hive-0.12.0-cdh5.1.0$ ./bin/beeline beeline> !connect jdbc:hive2://localhost:10000默认 用户名就是登录账号 密码为空 Beeli...转载 2018-09-08 18:08:00 · 879 阅读 · 0 评论 -
hive中简单介绍分区表(partition table),含动态分区(dynamic partition)与静态分区(static partition)
(2011-07-29 14:29:03)转载▼标签: hadoop hive partition name 分区表 动态分区 静态分区 分类: Hadoop Hive hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混...转载 2018-09-08 18:08:05 · 349 阅读 · 0 评论 -
hive加载json数据和解析json
2018年02月28日 13:27:58 阅读数:3472 标签: json 更多个人分类: hive 事先说明,本人菜鸡一只,如果有说错的地方,还请大家指出批评,多多包涵~一、今天记录一下使用hive怎么加载json格式的数据,对于json格式,就不多做更多说明了,测试的数据是spark的example里面的people.json,数据很少,但是说明情况足矣。先给出官...转载 2018-09-08 18:08:11 · 2950 阅读 · 0 评论 -
hive 执行文件sql 并打印到指定文件中收集查询结果演示
Last login: Thu May 3 04:48:24 2018 from 192.168.72.1[wangshumin@centoshostnameKL3 ~]$ touch hiveselectuser.sql[wangshumin@centoshostnameKL3 ~]$ vim hiveselectuser.sql [wangshumin@centoshostnameKL3 ~...原创 2018-05-04 11:15:38 · 2298 阅读 · 0 评论 -
JS实现点击事件统计
JS实现点击事件统计原创 2016年06月15日 09:53:55标签:网站统计 /点击事件 /统计 /百度统计 /JS统计2722JS实现网站点击事件的统计功能。[javascript] view plain copy/** * 点击事件上报,分为立即上报和延时上报,延时上报通过cookie存储。 * * 一、配置参数,主要用于定义上报的一些配置信息。通过在外部定义_clickc对象重置...转载 2018-03-25 17:44:37 · 664 阅读 · 1 评论 -
hive的join实现
Time taken: 18.884 seconds, Fetched: 22 row(s)hive> create table a(id int,name string) > row format delimited fields terminated by ',';OKTime taken: 0.098 secondshive> create table b(id in...原创 2018-03-12 22:51:33 · 548 阅读 · 0 评论 -
使用Spring Boot操作Hive JDBC时,启动时报出错误:NoSuchMethodError: org.eclipse.jetty.servlet.ServletMapping.setDef
使用Spring Boot操作Hive JDBC时,启动时报出错误:NoSuchMethodError: org.eclipse.jetty.servlet.ServletMapping.setDef原创 2017年10月30日 16:51:47标签:spring /hive /spring boot838使用Spring Boot操作Hive JDBC时,启动时报出错误:NoSuchMethod...转载 2018-03-22 16:14:49 · 1074 阅读 · 0 评论 -
Hive用户接口(二)—使用Hive JDBC驱动连接Hive操作实例
Hive用户接口(二)—使用Hive JDBC驱动连接Hive操作实例原创 2015年01月12日 10:34:1113185问题导读: 1、Hive提供了哪三种用户访问方式? 2、使用HiveServer时候,需要首先启动哪个服务? 3、HiveServer的启动命令是? 4、HiveServer是通过哪个服务来提供远程JDBC访问的? ...转载 2018-03-22 14:47:15 · 9582 阅读 · 0 评论 -
Hive 1.21
JDBC 连接Hive 简单样例(开启Kerberos)原创 2017年08月16日 22:43:13标签:jdbc /hive3047运用 Ambari 搭建的HDP 集群,由于开启了kerberos ,对外提供Hive数据时统一用JDBC 的方式,所以写了下面这么一个简单样例供第三方数据接入参考。代码如下所示:package com.bmsoft.hive.impl;import org....转载 2018-03-22 14:26:27 · 259 阅读 · 0 评论 -
java通过JDBC驱动连接操作hive实例
java通过JDBC驱动连接操作hive实例原创 2015年10月16日 15:27:12标签:JDBC /java /hive7341Hive提供了jdbc驱动,使得我们可以用java代码来连接Hive并进行一些类关系型数据库的sql语句查询等操作。首先,我们必须将Hive的服务,也就是HiveServe打开。在Hive 0.11.0版本前,只有HiveServer服务可用,但是HiveServ...转载 2018-03-22 14:13:52 · 3114 阅读 · 0 评论 -
Java代码通过JDBC连接Hiveserver2
Java代码通过JDBC连接Hiveserver2转载 2016年04月26日 16:33:35344用Java代码通过JDBC连接Hiveserver2 我们可以通过CLI、Client、Web UI等Hive提供的用户接口来和Hive通信,但这三种方式最常用的是CLI;Client 是Hive的客户端,用户连接至 Hive Server。在启动 Client 模式的时候,需要指出H...转载 2018-03-22 14:12:00 · 2383 阅读 · 1 评论 -
hdfs 和hive与 partition
home/wangshumin[wangshumin@centoshostnameKL2 ~]$ hdfs dfs -cat /user/hive/warehouse/hive2_db1.db/stuincat: `/user/hive/warehouse/hive2_db1.db/stuin': Is a directory[wangshumin@centoshostnameKL2 ~]$ hd...转载 2018-03-12 14:23:05 · 852 阅读 · 0 评论 -
通过hive 加载本地文件或者hdfs上的文件到表里
Time taken: 0.083 secondshive> select * from stu2;OKNULL zhangshan 20NULL wangwu NULLNULL xiaolu NULLTime taken: 0.419 seconds, Fetched: 3 row(s)hive> create table stu2( id int , name ...原创 2018-03-12 12:00:51 · 4408 阅读 · 3 评论 -
文件数据的格式问题hive解析出现错误
[wangshumin@centoshostnameKL2 ~]$ hdfs dfs -put stu2 /user/hive/warehouse/hive2_db1.db/stu2[wangshumin@centoshostnameKL2 ~]$ hdfs dfs -cat /user/hive/warehouse/hive2_db1.db/stu2/stu21 ,zhangshan ,202...原创 2018-03-12 11:53:13 · 1413 阅读 · 0 评论 -
启动./hiveserver2查看10000端口 使用beeline连接服务
Last login: Mon Mar 12 10:14:30 2018 from 192.168.72.200[wangshumin@centoshostnameKL2 ~]$ netstat -ntlp(Not all processes could be identified, non-owned process info will not be shown, you would have ...原创 2018-03-12 11:09:18 · 8893 阅读 · 3 评论 -
Beeline version 1.2.1 by Apache Hive beeline&gt; !connect jdbc:hive://centoshostnameKL2:10000
Last login: Thu Feb 8 20:00:21 2018 from 192.168.72.200[wangshumin@centoshostnameKL2 ~]$ netstat -nltp(Not all processes could be identified, non-owned process info will not be shown, you would have ...转载 2018-02-10 13:38:39 · 767 阅读 · 0 评论 -
Hadoop集群之Hive安装配置
Hadoop集群之Hive安装配置转自:Hadoop集群之Hive安装配置Hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据。其在Hadoop的架构体系中承担了一个SQL解析的过程,它提供了对外的入口来获取用户的指令然后对指令进行分析,解析出一个MapReduce程序组成可执行计划,并按照该计划生成对应的MapRedu...转载 2018-02-10 11:14:55 · 1037 阅读 · 0 评论