大数据
IreneByron
热爱,自由。
展开
-
hiveserver2是什么
HiveServer 是建立在 Apache ThriftTM(http://thrift.apache.org/) 之上的,因此有时会被称为 Thrift Server,这可能会导致我们认知的混乱,因为新服务 HiveServer2 也是建立在 Thrift 之上的。HiveServer2 作为复合服在单个进程中运行,其中包括基于 Thrift 的 Hive 服务(TCP或HTTP)以及用于 Web UI的 Jetty Web 服务。HiveServer2 是一种能使客户端执行 Hive 查询的服务。原创 2023-01-10 16:19:32 · 285 阅读 · 0 评论 -
Hive-cli(hive)与Beeline的区别
hive-cli(hive) 是hive连接hivesever的命令行工具,从hive出生就一直存在,但随着hive功能的增强、bug的修复、版本升级,hive-cli结构的局限性跟不上hive的发展,如果强行更改就不能满足向下兼容,就出现了全新的beeline命令行结构,即就是hive-cli能做的事beeline都能做,而beeline能做的事hive-cli不一定能做。2、CliDriver是SQL本地直接编译,然后访问MetaStore,提交作业,是重客户端。3、多用户、安全、可以实现其权限控制。原创 2023-01-10 16:06:27 · 1059 阅读 · 0 评论 -
报错解决Missing artifact org.pentaho:pentaho-aggdesigner-algorithm:jar:5.1.5-jhyde
今天编包,疯狂报Missingartifactorg.pentahopentaho-aggdesigner-algorithmjar5.1.5-jhyde的错,网上各种查,好像还是不太行。最终把mavensetting的镜像地址改成如下,终于ok了。原创 2022-07-29 17:06:08 · 729 阅读 · 0 评论 -
spark谓词下推
spark 谓词下推原创 2022-07-26 17:50:52 · 495 阅读 · 0 评论 -
spark3.2.0新特性
spark3.2.0新特性整理原创 2022-06-13 13:06:08 · 729 阅读 · 0 评论 -
数据倾斜优化
参考文章:Hive SQL 参数与性能调优数据倾斜的原理都知道,就是某一个或几个key占据了整个数据的90%,这样整个任务的效率都会被这个key的处理拖慢,同时也可能会因为相同的key会聚合到一起造成内存溢出。Hive的数据倾斜一般的处理方案:常见的做法,通过参数调优:set hive.map.aggr=true; set hive.groupby.skewindata = ture;当选项设定为true时,生成的查询计划有两个MapReduce任务。在第一个MapRe原创 2022-03-07 17:25:32 · 1226 阅读 · 0 评论 -
Hive参数与优化
参考资料:Hive SQL 参数与性能调优小文件优化小文件过多的影响:(1)小文件过多会导致namenode元数据特别大,占用过多内存,严重影响HDFS性能(2)对Hive来说,在进行查询时,每个小文件都会当成一个块,启动一个Map任务来完成。如果文件过多的话,Map任务启动和初始化的时间可能远远大于逻辑处理的时间,就会造成很大的资源浪费。同时可执行的Map数量是受限的。解决方法:1.使用 hive 自带的 concatenate 命令,自动合并小文件#对于非分区表al.原创 2022-03-07 15:59:26 · 1178 阅读 · 0 评论 -
Zookeeper安装(单机)
参考文章:https://www.jianshu.com/p/30bcaf55f451Zookeeper搭建下载zookeeper国内镜像源:https://mirror.bjtu.edu.cn/apache/zookeeper/stable/解压zookeepertar -zxvf apache-zookeeper-3.5.9-bin.tar.gz配置zookeeper# 创建相应目录mkdir /tmp/zookeepermkdir /tmp/zookeeper/data原创 2021-03-25 17:32:44 · 278 阅读 · 0 评论 -
Hive 使用derby作为元数据库
Hive内置存储元数据的数据库为derby。但是使用时会有问题,开启Hive之后会占用元数据库,而derby不与其他客户端共享数据。所以一次只能有一个客户端在使用,如果开了另一个客户端就会连接不上。另外,启动hive时,会在启动的目录创建metasore_db。假设我在bin目录启动hive,因为本地配了HIVE_HOME,所以直接输 hive就可以启动。此时bin目录就有metasore_db。如果我再进入其他目录,如conf,输出hive,能成功启动。但是当输入命令时,会报错如下:原创 2021-03-24 23:53:51 · 1789 阅读 · 0 评论 -
安装Hive(单机)
安装Hive(单机)环境:macOS安装Hadoop如果环境已有Hadoop,可忽略。下载hadoop-3.3.0.tar.gz ,放到要安装的目录下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/解压tar -zxvf hadoop-3.3.0.tar.gz添加环境变量vim ~/.bash_profile# hadoopexport HADOOP_HOME=/software/hadoop-原创 2021-03-21 18:31:59 · 190 阅读 · 0 评论 -
Spark RDD算子之foreachPartition
首先,看如下代码ds.foreachRDD( rdd =>{ rdd.foreach{ case( (a,b) =>{ val conn: Connection = JDBCUtil.getConnection conn.close() }) } })在如上代码情况下,rdd中每一条数据处理时都会创建连接,有问题。但是如果原创 2021-03-04 22:57:26 · 1325 阅读 · 1 评论