- 博客(102)
- 资源 (2)
- 问答 (1)
- 收藏
- 关注
原创 hive企业级调优策略之如何用Explain查看执行计划
Explain呈现的执行计划,由一系列Stage组成,这一系列Stage具有依赖关系,每个Stage对应一个MapReduce Job,或者一个文件系统操作等。
2023-12-19 11:21:24
669
原创 Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask
该值不能超出yarn.scheduler.maximum-allocation-mb和yarn.scheduler.minimum-allocation-mb规定的范围。此次计算所需的节点内存超出配置的内存值。单个Map Task申请的container容器内存大小,其默认值为1024。使用hive进行map join时, 节点内存不够就会报该类型错误。
2023-12-18 12:55:56
446
原创 FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.me
FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.me
2023-12-17 11:26:20
2118
原创 hive的分区表和分桶表详解
分桶表的基本原理是,首先为每行数据计算一个指定字段的数据的hash值,然后模以一个指定的分桶数,最后将取模运算结果相同的行,写入同一个文件中,这个文件就称为一个分桶(bucket)。
2023-12-15 13:24:36
515
原创 hive常用SQL函数及案例
Hive会将常用的逻辑封装成函数给用户进行使用,类似于Java中的函数。好处:避免用户反复写逻辑,可以直接拿来使用。重点:用户需要知道函数叫什么,能做什么。Hive提供了大量的内置函数,按照其特点可大致分为如下几类:单行函数、聚合函数、炸裂函数、窗口函数。以下命令可用于查询所有内置函数的相关信息。
2023-12-14 17:07:44
1820
原创 hive聚合函数之排序
distribute by类似MapReduce中partition(自定义分区),进行分区,结合sort by使用。cluster by除了具有distribute by的功能外还兼具sort by的功能。Sort By:对于大规模的数据集order by的效率非常低。对于distribute by进行测试,一定要分配多reduce进行处理,否则无法看到distribute by的效果。distribute by的分区规则是根据分区字段的hash码与reduce的个数进行相除后,余数相同的分到一个区。
2023-12-14 11:06:38
405
原创 hive聚合函数之JOIN原理及案例
本例中会首先启动一个MapReduce job对表e和表d进行连接操作,然后会再启动一个MapReduce job将第一个MapReduce job的输出和表l进行连接操作。union和union all都是上下拼接sql的结果,这点是和join有区别的,join是左右关联,union和union all是上下拼接。union去重,union all不去重。将员工表30部门的员工信息和40部门的员工信息,利用union进行拼接显示。内连接:只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。
2023-12-13 17:47:28
291
原创 hive自定义函数及案例
1.继承 AbstractGenericUDAFResolver重写 getEvaluator方法,对传入的值进行判断。2.创建数据缓存区,创建一些变量来进行调用赋值,作为中间值,类似于flink的checkpoints。3.继承GenericUDAFEvaluator类重写方法即可,实现具体逻辑的类。为了方便理解可以参考以下文章:UDAF重要的类及原理分析(UDAF继承类的各个方法的用法)Hive之ObjectInspector详解(UDAF中用到的类型详解)
2023-12-09 15:27:10
776
原创 User: zhangflink is not allowed to impersonate zhangflink
User: xxx is not allowed to impersonate xxx
2023-12-06 19:44:54
675
原创 Hive的使用技巧
注意:用户自定义配置会覆盖默认配置。另外,Hive也会读入Hadoop的配置,因为Hive是作为Hadoop的客户端启动的,Hive的配置会覆盖Hadoop的配置。默认配置文件:hive-default.xml。用户自定义配置文件:hive-site.xml。重新启动日志路径已经出现在配置的路径。
2023-12-05 15:23:36
566
原创 Hive的metastore服务的两种运行模式
生产环境中,不推荐使用嵌入式模式。因为其存在以下两个问题:(1)嵌入式模式下,每个Hive CLI都需要直接连接元数据库,当Hive CLI较多时,数据库压力会比较大。(2)每个客户端都需要用户元数据库的读写权限,元数据库的安全得不到很好的保证。
2023-12-05 11:42:43
679
原创 Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster
[2023-12-04 15:06:00.199]Container exited with a non-zero exit code 1. Error file: prelaunch.err.Last 4096 bytes of prelaunch.err :Last 4096 bytes of stderr :Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster
2023-12-04 15:44:04
178
原创 ==== AUTHENTICATING FOR org.freedesktop.systemd1.manage-unit-files === Authentication is required to
Authentication is required to reload the systemd state.Authenticating as: Cloudera Manager (cloudera-scm)Password:
2023-12-03 18:18:16
2752
原创 初始化 Clouder Manager 数据库报错Unable to find JDBC driver for database type: MySQL
[ main] DbCommandExecutor INFO Unable to find JDBC driver for database type: MySQL[ main] DbCommandExecutor ERROR JDBC Driver com.mysql.jdbc.Driver not found.[
2023-12-03 17:28:38
413
1
原创 Datax安装部署及读取MYSQL写入HDFS
File /datax/mysql__92df3245_1a54_4381_a5e6_649aed660db1/dict__1fe9a71f_6a1d_421d_b4fb_ac5226637b42.gz could only be written to 0 of the 1 minReplication nodes. There are 3 datanode(s) running and 3 node(s) are excluded in this operation
2023-11-25 19:04:16
796
原创 maxwell采集数据到kafka报错
ERROR MaxwellKafkaProducer - Expiring 35 record(s) for maxWellData-0: 30005 ms has passed since batch creation plus linger time
2023-11-23 17:10:31
698
原创 Maxwell安装部署消费到kafka集群
Maxwell需要在MySQL中存储其运行过程中的所需的一些数据,包括binlog同步的断点位置(Maxwell支持断点续传)等等,故需要在MySQL为Maxwell创建数据库及用户。我们需要关注的是输出结果的第一行,可以看到log_bin对应的值是ON,所以binlog已经开启。先把采集到的数据打印到控制台测试maxwell应用是否正常。创建Maxwell用户并赋予其必要权限。打印正常后重新启动打印到kafka。修改Maxwell配置文件名称。修改Maxwell配置文件。
2023-11-23 16:40:54
429
原创 logstash安装和使用
1.上传Linux安装包2.解压安装包且重命名3.启动测试运行最基本的 Logstash 管道,控制台输入控制台打印输出方便测试4.常用数据采集案例。
2023-11-22 13:44:31
766
原创 Flume的安装部署及常见问题解决
hadoop权限问题:Permission denied: user=root, access=WRITE, inode=“/“:hdfs:supergroup:drwxr-xr-xFailed on local exception: org.apache.hadoop.ipc.RpcException: RPC response exceeds maximum data len
2023-11-19 13:50:47
1430
原创 kafka分布式安装部署
1.集群规划2.集群部署(1)上传并解压安装包(2)修改解压后的文件名称(3)进入到/opt/software/kafka目录,修改配置文件(3)配置系统环境变量刷新配置文件(4)分发环境变量文件到其他节点,并source刷新配置文件(5)分发kafka文件到其他节点修改其他3.启动集群先启动Zookeeper集群,然后启动Kafka。查看进程**
2023-11-16 16:31:47
1192
原创 Hadoop3.3.4分布式安装
如果集群是第一次启动,需要在flinkv1节点格式化NameNode(注意格式化之前,一定要先停止上次启动的所有namenode和datanode进程,然后再删除data和log数据)(4)Web端查看HDFS的Web页面:http://flinkv1:9870/ (云服务器请使用公网IP地址访问,确保端口的安全组入口已经开发)(3)在配置了ResourceManager的节点(flinkv2)启动YARN。注意:下文中的flinkv1、flinkv2、flinkv3是三台服务器的别名。
2023-11-14 11:16:12
993
原创 Zookeeper3.7.1分布式安装部署
集群模式下配置一个文件myid,这个文件在dataDir目录下,这个文件里面有一个数据就是A的值,Zookeeper启动时读取此文件,拿到里面的数据与zoo.cfg里面的配置信息比较从而判断到底是哪个server。D是万一集群中的Leader服务器挂了,需要一个端口来重新进行选举,选出一个新的Leader,而这个端口就是用来执行选举时服务器相互通信的端口。1.重命名/opt/software/zookeeper-3.7.1/conf目录下的zoo_sample.cfg为zoo.cfg。
2023-11-05 19:32:06
1263
原创 Hbase的列式存储到底是什么意思?一篇文章让你彻底明白
Apache HBase™ 是以 hdfs 为数据存储的,一种分布式、可扩展的 NoSQL 数据库。
2023-08-17 14:32:10
1219
1
原创 HadoopWEB页面上传文件报错Couldn‘t upload the file course_info.txt
解决方法:在WEB页面访问浏览器所在机器上面配置hosts映射地址(注意:配置的是浏览器访问的地址不是hadoop节点所在的映射地址,如果是云服务器就配置公网IP的映射地址)右键F2检查发现:文件上传PUT操作的IP地址是节点IP别名识别不到导致。
2023-08-03 12:52:45
2276
2
原创 HIVE初始化元数据com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V
解决方法:使用Hadoop里面的 guava-27.0-jre.jar 这个jar包替换hive的lib下的jar包,要保证Hadoop和hive的这个jar包版本一致。原因:由于java包版本不一致导致。
2023-08-01 22:54:20
424
原创 Flink本地集群部署启动&常见问题的解决方法
访问页面http://localhost:8081/#/overviewi页面slots卡槽数正确展示说明启动成功。解决方法:设置taskmanager和jobmanager允许所有机器连接。启动成功taskmanager会出现如下进程。启动集群在jobmanager那台机器启动。启动成功jobmanager会出现如下进程。解决方法,检查以下配置是否正确。
2023-07-16 23:32:57
2959
1
原创 docker搭建hbase环境
第三步:访问页面,16010端口是hbase提供的webui界面暴露的端口,映射为了32770,我们可以通过虚拟机地址,以及这个端口访问hbase webui。
2023-05-16 20:46:27
630
原创 FlinkYARN 模式部署运行作业
⚫ -d:分离模式,如果你不想让 Flink YARN 客户端一直前台运行,可以使用这个参数, 即使关掉当前对话窗口,YARN session 也可以后台运行。支持,需要自行在官网下载 Hadoop 相关版本的组件 flink-shaded-hadoop-2-uber-2.7.5-10.0.jar,1、按照 3.1 节所述,下载并解压安装包,并将解压后的安装包重命名为 flink-1.13.0-yarn,4、执行Flink命令向 YARN 集群申请资源,开启一个 YARN 会话,启动 Flink 集群。
2023-04-16 20:58:58
619
原创 springboot的hibernate注解配置详解
GenerationType.AUTO,默认的生成策略,生成器采用native,取决于底层数据库的能力,使用该生成器保证映射元数据可以移植到不同的数据库管理系统。schema,用于指定数据库表所在的用户模式,如oracle的scott用户模式,sqlserver的dbo用户模式。insertable可选,该列是否作为生成的insert语句中的一个列(默认值true)updatable可选,该列是否作为生成的update语句中的一个列(默认值true)table 可选,定义对应的表(默认为主表)
2023-03-16 21:37:55
632
原创 docker部署kafka
安装kafka 和zk拉取镜像zookeeper和kafka的镜像启动镜像,在启动中设置端口好,挂载,名称,环境变量,kafka要绑定使用哪个zk,因为各种应用,例如hbase也是使用zk,所以k8s上可能有多个zk。
2023-03-08 22:33:58
141
原创 开窗函数的使用详解(聚合函数图文详解)
n NTILE(n),用于将分组数据按照顺序切分成n片,返回当前切片值。将一个有序的数据集划分为多个桶(bucket),并为每行分配一个适当的桶数(切片值,第几个切片,第几个分区等概念)。② lead(字段名,n,0) – 移位开窗函数,与lag()相反,表示返回向下第n行指定字段对应数据。③ dense_rank() – 相同结果排名相同,后续排名顺延,返回结果为1、2、2、3。② rank() --相同结果排名相同,后续排名不连续,返回结果为 1、2、2、4。④ max() – 分组求最大值。
2023-02-21 21:30:34
1204
1
原创 ES集群安装配置及报错解决
解压到相关目录切换到conf目录下修改elasticsearch.yml , jvm.options修改如下部分检查如下是否配置分发各个节点修改各个节点的名称启动es,首先在master节点启动,在依次启动其他节点浏览器访问master节点 http://master:9200/_cat/nodes?v其它节点****解决方法一(关闭bootstrap.memory_lock:,会影响性能):解决方法二(开启bootstrap.memory_lock:):bootstrap.me
2022-06-04 12:30:49
514
原创 hive初始化元数据报错Access denied for user ‘root‘@‘192.168.0.87‘ (using password: YES) SQL Error code: 1045
初始化Hive元数据库报错把配置hive-site.xml里面的mysql密码错误了,没有连接上导致。修改后重新初始化即可。
2022-06-03 17:32:12
516
原创 spark3.x的Linux环境分布式安装配置
1.首先安装配置scala环境,安装配置方法和java一样,开始解压包[zhang@ecs-88194-0001 package]$ tar -zxvf scala-2.13.8.tgz -C ../software/2.配置环境变量[zhang@ecs-88194-0001 package]$ vim /etc/profile.d/my_env.sh 3.添加环境变量#SCALA_HOMEexport SCALA_HOME=/opt/software/scala-2.13.8export
2022-05-22 19:57:28
665
FlinkCDC连接MYSQL8.0报错
2022-01-22
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅