Hive
文章平均质量分 60
Hive
abcdggggggg
喜欢的可以点赞收藏~~
展开
-
Hive MetaStore 启动配置
1.MetaStore介绍Hive可以启动一个叫做MetaStore的服务,该服务在Hive的客户端启动,用户通过客户端连接到MetaStore,然后和一个数据库(例如:Mysql)进行通信。该数据库是用于存储Hive的元数据信息。2.MetaStore配置需要修改hive-site.xml配置文件,配置端口 <property> <name>hive.metastore.port</name> <value>9083&...原创 2022-05-12 15:15:04 · 5652 阅读 · 0 评论 -
Hive MR和Tez 启用Local模式
1.说明 启动local模式,就是让hive的任务不运行在yarn上面。直接当前的服务器执行2.优点当我们对Hive的源码进行Debug,且代码需要Debug到每个task内部时,如果任务是执行在yarn模式的话,那么是无法打断点的,需要进入local模式才能打断点3.MR当引擎为MR时,需要修改以下参数,可以修改配置文件hive-site.xml,也可以通过set来生效3.1 hive-site.xml<property> <name>h...原创 2022-04-19 20:32:05 · 2609 阅读 · 0 评论 -
Hive 基于Tez引擎 map和reduce数的参数控制原理与调优经验
Hive on Tez的引擎调优 基于Map数和Reduce数的调优原创 2022-03-25 21:06:21 · 9738 阅读 · 0 评论 -
Apache Hive 问题 Exception: Too many counters: 121 max=120
报错信息如下:INFO : Exception: Too many counters: 121 max=120at org.apache.tez.common.counters.Limits.checkCounters(Limits.java:86)at org.apache.tez.common.counters.Limits.incrCounters(Limits.java:93)at org.apache.tez.common.counters.AbstractCounterGroup..原创 2021-11-02 19:33:45 · 2546 阅读 · 0 评论 -
Hive Aapche 设置为事务表(ACID)This command is not allowed on an ACID table xxx with a non-ACID transaction
Apache Hive中默认的创建的表为非事务表,如果需要将表设置为事务表需要修改以下参数:<property> <name>hive.support.concurrency</name> <value>true</value></property><property> <name>hive.txn.manager</name> <value>...原创 2021-10-30 10:18:32 · 2724 阅读 · 3 评论 -
Hive 基于常用参数的调优(Tez和MR引擎)
1.说明Hive的常用计算引擎有MR、Tez和Spark,本篇博客主要是基于MR和Tez的参数调优,由于Hive的任务是在Yarn上提交的,所以Yarn作为一个资源调度器,可用的资源也需要进行配置。2.Yarn参数个性化配置配置文件名:yarn-site.xml参数名 推荐值 参数说明 yarn.nodemanager.resource.cpu-vcores 当前数据节点的可用最大CPU核数*80% Container可以使用的的CPU数 yarn...原创 2021-10-30 10:09:52 · 3414 阅读 · 0 评论 -
Apache Hive 3.X版本 HiveServer2 insert overwrite大量数据 报错内存溢出 GC overhead limit exceeded return code -10
1.执行语句insert overwrite 语句,将text格式的表导入到orc格式的表中,数据量为10G2.报错内容报错信息,通过hive.log查看,也可以通过HiveServer2 的Web:http://${自定义IP}:10002/查看org.apache.hive.service.cli.HiveSQLException: Error while processing statement: FAILED: Execution Error, return code ...原创 2021-03-05 09:47:27 · 1873 阅读 · 3 评论 -
大数据集群安装(四)Hive Apache集群安装部署 详细 启动HiveServer2
本次测试3台集群(node1(192.168.1.2),node2(192.168.1.4),node3(192.168.1.6)),所有的主服务都安装在node1节点,操作系统为CentOS7.61.环境准备参考博客:https://blog.csdn.net/qq_35260875/article/details/1113151102.安装Zookeeper参考博客:https://blog.csdn.net/qq_35260875/article/details/...原创 2021-01-18 12:02:14 · 593 阅读 · 0 评论 -
Hive 压缩种类介绍 常用压缩参数 hive.exec.compression.intermediate 中间压缩 压缩优化
1.Hive压缩尽管Hadoop的文件系统支持对于非压缩数据的线性扩展存储,但是对数据进行压缩还是有很多好处的。压缩通常能节约磁盘空间。压缩同样可以增加吞吐量和性能。压缩和解压缩会增加额外的CPU开销,不过,通过减少载入内存的数据量而提高I/O吞吐量会更加提高网络传输性能。Hadoop的job通常是I/O密集型而不是CPU密集型的。如果是这样的话,压缩可以提高性能。不过如果用户的job是CPU密集型的话,那么使用压缩可能会降低执行性能。确定是否进行压缩的唯一方法就是尝试不同的选择,并测量对...原创 2020-12-13 17:01:31 · 2820 阅读 · 5 评论 -
Hive 常用的DDL语句大全 建库建表 详细
1.创建库(1)语法结构CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] //关于数据块的描述 [LOCATION hdfs_path] //指定数据库在HDFS上的存储位置 [WITH DBPROPERTIES (property_name=property_value, ...)]; //指定数据块属性默认地址:/use...原创 2020-12-10 19:21:37 · 3301 阅读 · 2 评论 -
Hive 基于MapReduce引擎 map和reduce数的参数控制原理与调优经验
1.概述主要对基于MR的map数和reduce数测试与调优2.数据准备(1)表信息本次测试的表和sql都是使用的TPC-DS,表文件存储格式为text 表名 是否压缩 总数 占用空间 文件数 date_dim 否 73049 9.8 M 1 item ...原创 2020-11-26 11:56:29 · 2371 阅读 · 0 评论 -
Hive 数据存储格式 orc格式
修改查看当前默认文件存储格式set hive.default.fileformat;set hive.default.fileformat=Orc;1.数据存储格式(1)textText是最简单最常见的存储格式,它是纯文本记录,也是Hive的默认格式。# 存储方式行存储# 特点空间利用率低有序列化和反序列话的开销建表语句:create table inventory( inv_date_sk int, inv_item_sk ...原创 2020-10-21 10:54:28 · 8561 阅读 · 0 评论 -
Hive 四种排序方法功能和使用
1.Order By(1)功能根据指定字段进行全局排序,和关系型数据库的用法一样,会生成一个ReduceTask,默认是升序。实际中用的比较多(2)例子--升序select * from emp order by sal;--降序select * from emp order by sal desc;--多列排序select ename, deptno, sal from emp order by deptno, sal;2.Sort By(1)功能根.原创 2020-05-25 19:51:55 · 1923 阅读 · 0 评论 -
Hive 数据倾斜 常用解决办法
来源:https://www.cnblogs.com/qingyunzong/p/8847597.html1.数据倾斜的原因数据分布不均匀,造成数据热点问题2.数据倾斜的现象 Hive任务进度长时间维持在99%或者100%的附近,进度好久没变化。通过查看任务监控页面Web,发现只有一个或者少数的reduce任务未完成,因为其处理的数据量和其他的reduce差异过大。单一reduce处理的记录数和平均记录数相差过多,导致最长时间远大于任务的平均时长。3.数据倾斜情况...原创 2020-05-24 20:22:04 · 3525 阅读 · 0 评论 -
Hive UDF 用户自定义函数
来源:https://www.cnblogs.com/screen/p/9116540.html用户自定义函数用户:根据条件在hive中查询,将统计的结果导入到mysql中,通用的函数根据我们的主键,取出时间戳信息和设备id1.查看函数的命令# 查看系统自带的函数show functions;# 显示自带的函数的用法desc function upper;# 详细显示自带的函数的用法desc function extended uppe...转载 2020-05-19 19:22:22 · 216 阅读 · 0 评论 -
Hive(一) 简单介绍 功能 优缺点
1.Hive概述Hive是基于Hadoop的开源的数据仓库框架,提供了一种类SQL的语言HQL来处理数据,使熟悉SQL的用户能查询数据。其原理是将HiveQL转换为MapReduce任务,从而完成海量数据的查询和分析。HiveQL能通过实现用户自定义函数(UDF)、用户自定义聚合函数(UDAF)、用户自定义表函数(UDTF)进行扩展。基于Hadoop,Hive具有以下特点: 易于进行数据抽取、转换和加载(ETL) 支持多样的数据存储格式 能直接访问存储在HDFS上或者...原创 2020-05-16 10:25:29 · 2186 阅读 · 0 评论 -
Hive 分区表 动态分区开启 创建 hive.exec.dynamic.partition=true;
参考:https://blog.csdn.net/afafawfaf/article/details/802499741.分区表还可以创建二级分区:PARTITIONED BY (event_month string, step string)创建分区表:CREATE TABLE order_created_partition (order_number STRING, event_timeSTRING)PARTITIONED BY (event_month ...原创 2020-05-16 10:15:22 · 5856 阅读 · 0 评论