大数据
IT_ZhiCunGaoYuan
不忘初心,继续前进 。功崇惟志,业广惟勤
展开
-
Flink on-k8s operator application 模式
flink on k8s operator原创 2022-12-26 13:10:54 · 1667 阅读 · 0 评论 -
maxcompute优化慢执行语句思路
大数据慢任务优化原创 2022-11-22 10:21:14 · 463 阅读 · 0 评论 -
数据倾斜常见的解决方案
数据倾斜常见的解决方案原创 2022-10-28 16:07:23 · 479 阅读 · 0 评论 -
clickhouse delete后insert数据不可见问题
clickhouse delete后 insdert 数据不可见问题原创 2022-10-11 18:59:43 · 900 阅读 · 0 评论 -
基于Apache 开源组件搭建大数据集群
基于Apache开源组件搭建大数据集群原创 2022-09-15 14:40:01 · 1240 阅读 · 0 评论 -
kettle data-integration使用zookeepe连接串模式实现Hiverserver2的HA
Kettle data-integration 使用zookeeper 连接串模式实现Hiverserver2 的HA原创 2022-09-07 14:15:21 · 488 阅读 · 0 评论 -
java通过zookeeper 高可用方式连接hiveserver2
hiveserver2 高可用(HA)原创 2022-09-06 17:14:34 · 2648 阅读 · 0 评论 -
hive on spark 代码方式实现
hive on spark原创 2022-06-29 18:01:52 · 288 阅读 · 0 评论 -
CDH6.3整合Carbondata
CDH6.3整合apache carbondata原创 2022-06-24 11:00:30 · 354 阅读 · 0 评论 -
Java 写parquet格式数据到hdfs
场景: 将接口数据接入数仓hive 版本:2.1.1 hadoop 版本: 3.0.0引入maven 依赖: <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.60</version> ...原创 2021-10-09 17:13:26 · 951 阅读 · 1 评论 -
Linux shell 指定日期区间循环调度
场景:Azkaban 调度历史数据1:调度 start_time ~ end_time 时间间隔内的所有分区 格式为 yyyy-MM-dd#!/usr/bin/env bashEXPORT_START_DATE=2021-05-01EXPORT_END_DATE=2021-08-21i=$EXPORT_START_DATEwhile [[ $i < `date -d "+1 day $EXPORT_END_DATE" +%Y-%m-%d` ]]doSTARTDATE=$i.原创 2021-10-09 14:43:04 · 385 阅读 · 0 评论 -
多kafka 集群搭建
场景:在一个cdh 集群环境中 部署第二套kafka 集群部署逻辑:除cdh 部署的zk 外 使用不同的端口又单独部署了一套 zk ,kafka 同理 使用非默认的端口单独部署另一个kafka 集群遇到的问题:使用 kafka console shell 生产 数据 使用 kafka console shell 消费不到数据发现使用 sh kafka-console-consumer --zookeeper 模式可以 消费到 数据。问题定位: kafka 的元数据 默...原创 2021-06-28 14:15:06 · 456 阅读 · 0 评论 -
CDH6.1配置Flink 集群
cdh搭建flink集群参考链接 https://github.com/pkeropen/flink-parcel笔者没有使用清华镜像 使用的是https://archive.apache.org/dist/flink/flink-1.13.1/执行 build.sh csd_on_yarn 命令后 会得到一个csd 文件: flink_csd_build 然后将文件 copy 到 cdh 默认的安装包目录:/opt/cloudera/csd 目录中参考链接 https://github.com/pk原创 2021-06-08 16:02:03 · 470 阅读 · 3 评论 -
Debezium实时采集postgresql 日志
debezium采集postgresql 表数据debezium 不运行在kafka 之上也能完成其采集看考debezium-connector-postgres 源码测试有效debezium 不运行在kafka 之上也能完成其采集看考debezium-connector-postgres 源码测试有效原创 2020-10-10 13:24:28 · 725 阅读 · 0 评论 -
java.lang.ClassNotFoundException: org.apache.hadoop.mapred.JobConf
场景:spark local模式调试代码时运行时 hadoop 错误原因: 引用的hadoop-mapreduce-client-corehadoop-commonhadoop-mapreduce-client-commonhadoop-mapreduce-client-jobclient版本不一致解决方案: 换版本 或者使用CDH原创 2020-06-23 19:57:52 · 2989 阅读 · 0 评论 -
Docker 搭建hadoop 集群
场景:总所周知大数据的学习成本比较高,比如 集群搭建需要最低3节点的ecs 或者使用 vm 开启3个centos 实例 。导致个人学习成本高,对于大量的理论性学习提升小。解决问题: 大数据理论性学习 。真实场景需要根据公司的业务数据量来具体把握 ,本章主要分享下 学习docker 搭建大数据集群的一些理论知识。如有错误还请不吝赐教 或者是私信我第一步:从docker 官网下载 do...原创 2019-12-06 15:31:08 · 174 阅读 · 2 评论