![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 59
catcher92
这个作者很懒,什么都没留下…
展开
-
clickhouse常用函数
工作中常用到的clickhouse实用的数组(array)、元祖(tuple)、json、日期函数,持续更新原创 2023-02-17 00:02:31 · 489 阅读 · 1 评论 -
flink常见问题(持续更新-20240122)
flink常见问题:oom被kill等原创 2022-10-03 22:41:23 · 1470 阅读 · 0 评论 -
flink-taskmanager内存计算
flink application模式下计算taskmanager内存大小划分。原创 2022-10-03 21:33:57 · 1204 阅读 · 0 评论 -
cdh安装hadoop组件后一些常用设置
cdh安装hadoop组件后一些常用设置原创 2022-09-16 17:22:33 · 718 阅读 · 0 评论 -
centos7安装cdh6.3.2-附带安装包
基于centos7安装cdh6.3.2,附带百度云盘安装包,100%可成功原创 2022-09-15 23:06:45 · 600 阅读 · 0 评论 -
flinkcdc同步mongo数据到clickhouse
通过flink-mongo-cdc同步数据到clickhouse原创 2022-09-04 19:47:13 · 2328 阅读 · 0 评论 -
记录一次flink程序类转换异常
今天更新flink程序时候报了一个异常,如下图:第一反应就是看代码是否有未判断类型的强转,找到代码对应位置确认了在强转前做了类型判断了,所以只能是怀疑val类的oracle.sql.TIMESTAMP和强转的(oracle.sql.TIMESTAMP)类不一样?接着debug时候加了jvm参数-D -verbose:class将程序中加载的所有类以及类所在的路径都打印出来,找oracle.sql.TIMESTAMP,结果如下:果然oracle.sql.TIMESTAMP类被l..原创 2022-04-15 15:05:04 · 561 阅读 · 0 评论 -
记录解决flink通过pushgateway导致指标缺失问题
最近在做一个flink程序的监控,技术选型以后最终选择将flink指标通过pushgateway来写道prometheus中,程序架构如下:JobManager和TaskManager进程都独立将指标push给PushGateway,然后Prometheus再定时去抓去PushGateway中指标,指标进Prometheus以后再通过grafana配置监控图。flink配置参数如下:metrics.reporter.promgateway.class: "org.apache.flink.原创 2022-01-25 21:53:18 · 4154 阅读 · 0 评论 -
记录一次moonbox冲突排查过程
在使用moonbox过程中通过SparkUI界面查看application使用的executor时候日志会报java.lang.NoSuchMethodError: javax.ws.rs.core.Application.getProperties,看这个错误就知道是jar冲突导致的。解决思路就是在启动driver时候添加jvm的-verbose:class参数,此处为:spark.driver.extraJavaOptions '-verbose:class'确定这个类目前是从哪个ja..原创 2021-04-14 22:44:48 · 152 阅读 · 0 评论 -
聊一聊shell中字符串 单引号 双引号以及执行字符串命令中的坑
一直以来对shell中字符串的了解就是单引号和双引号内的都是字符串,双引号内字符串可以被替换成变量,单引号就是原字符串输出,今天在开发一个hdfs跨集群拷贝数据脚本时候发现shell echo出来同样的命令手动执行可以执行,在shell内通过${cmd}方式却报错,通过sh -x a.sh才发现问题产生的根源,具体如下:众所周知hdfs在集群内部拷贝文件命令如下:hdfs dfs -cp src_path target_path我这里是跨集群拷贝,集群的配置文件中集群部门的同事由于种种原因不愿原创 2020-10-19 20:24:45 · 3257 阅读 · 1 评论 -
hdfs/spark跨集群数据迁移拷贝方案汇总
最近公司在做多个集群的合并和下线工作,部分集群要缩小规模,a集群有flink/spark程序实时写数据到a集群的hdfs/hive上,这部分部分数据要迁移到b集群的hdfs,由于a程序用到组件过多所以决定程序还保留在a集群,a集群的flink/spark程序将数据写到b集群,同时a集群的历史数据也要迁移到b集群。所以这里就设计到3处改动:spark程序跨集群写数据 sparkConf.set("hive.metastore.uris", "thrift://xxx.xxx.xxx.xxx:9083"原创 2020-09-14 10:31:50 · 3658 阅读 · 0 评论 -
hadoop distcp报错记录
1.报如下错误:Caused by: java.io.IOException: Check-sum mismatch between hdfs://xxx.xxx.xxx.xxx:8888/warehouse/dtp.db/stg_t02_lender_predict_income/003584_0 and hdfs://nebula/user/nebula/warehouse/ods/le...原创 2020-03-15 20:29:25 · 1116 阅读 · 0 评论 -
获取activeNamenode地址
工作中需要通过shell脚本跨hadoop集群拷贝数据,所以需要获取到存放数据的hdfs集群active namenode,经测试有如下两种方法:方法一:通过hdfs web端jmx获取active_namenode=''namenodes='10.130.81.102 10.130.81.103'for namenode in ${namenodes}do curl -s "...原创 2020-01-15 11:09:19 · 1568 阅读 · 3 评论 -
presto简介 0.220单机版安装配置hive
目录简介presto架构优缺点数据模型查询模型安装安装server配置hive catalog安装client简介presto架构presto集群是master worker架构,有如下几个组件:coordinator:presto集群的master节点,只能有一个,负责接收client的查询请求、解析SQL、生成执行计划、分发执行计划。...原创 2019-06-14 08:24:02 · 441 阅读 · 0 评论 -
离线安装cdh5.16.1
前置说明:集群之间的机器时间需要一致,本文是基于阿里云ecs安装测试,故省去安装ntp步骤。安装jdk过于简单,本文也略过该步骤,本文是基于jdk1.8。机器配置:机器名 配置 说明 hadoop001 2 cpu 8G 内存 centos7.6 cloudera-manager mysql http...原创 2019-05-11 21:55:40 · 1157 阅读 · 0 评论 -
centos6安装kudu
测了测试将kudu将kudu-tserver和kudu-master安装到同一台节点上。1.下载repo文件wget -P /etc/yum.repos.d/ http://archive.cloudera.com/kudu/redhat/6/x86_64/kudu/cloudera-kudu.repo2.安装yum install kudu-master kudu-tserv...原创 2019-02-18 23:37:51 · 442 阅读 · 0 评论