独狐游清湖-CSDN博客

原创 flink-OnYarn部署中关于zookeeper的匹配问题

flink-shaded-zookeeper-3.4.14.jar、flink-shaded-zookeeper-3.5.9.jar和flink-shaded-zookeeper-3.6.3.jar在flink1.14.4以及flink15+ onYarn 的适配问题

2023-09-01 17:07:32 380 1

原创 flinkSQL解析kafka数据源格式

flinksql kafka json

2023-05-26 15:17:08 327

原创 Doris+Flink搭建数据平台

Doris\flink\shell\python\canal\sql

2023-03-10 11:14:15 2332

1、查看当前的集群Topic列表./bin/kafka-topics.sh --list --zookeeper cdh-worker-1:2181/kafka2、查看所有的Topic的详细信息./bin/kafka-topics.sh --describe --zookeeper cdh-worker-1:2181/kafka#如果要查看单个 topic 信息：可在上述命令后面添加 --topic <topicName>3、创建Topic./bin/kafka-topics.s

2021-11-15 18:01:57 1406

原创 azkaban-任务执行成功，但是发送预警报错邮件

azkaban-任务执行成功，但是发送预警报错邮件症状:邮件发送 status:PREPARING任务执行情况：status=succees解决办法：azkaban节点时钟同步脚本内容：[root@node116 ~]# cat ntp6_aliyun.sh #!/bin/bashntpdate ntp6.aliyun.com...

2021-11-08 11:07:08 333

原创 pyspark到mysql

1 先上整体代码import syssys.path.append('/data/gtair/tools/DWH')import pandas as pdfrom sqlalchemy import create_engineengine = create_engine('mysql+pymysql://edu_ws:[email protected]:3306/edu_platform')df_spark =ss.sql("

2021-09-28 15:58:48 243

原创 ambari+hdp下mysql元数据用户ambari、hive、root、azkaban用户密码修改

写在前面ambari+hdp 安装集群的时候密码修改太简单，出于安全考虑，做各用户的密码修改。1 mysql 用户管理表字段CREATE TABLE `user` ( `Host` char(60) COLLATE utf8_bin NOT NULL DEFAULT '', `User` char(32) COLLATE utf8_bin NOT NULL DEFAULT '', `Select_priv` enum('N','Y') CHARACTER SET utf8 NOT NULL

2021-09-07 17:14:49 1413 1

原创 hive函数之collect_set,collect_list,concat_ws,array_contains 联合使用

hive函数之collect_set/collect_list,concat_ws,array_contains 联合使用1 表数据select id,act_status from ods.ods_ta_task limit 6;+----------------------+-------------+| id | act_status |+----------------------+-------------+| 34999455991526037

2021-08-30 16:37:33 893

原创 OLAP场景下大数据领域技术发展趋势

OLAP场景下大数据领域技术发展趋势1 OLAP场景，共同特点：绝大多数是读请求数据批次更新，而不是单行更新已添加到数据库的数据不能修改对于读取，从数据库中提取相当多的行，但只提取列的一小部分，列存储宽表，即每个表包含着大量的列查询相对较少(通常每台服务器每秒查询数百次或更少)事务不是必须的，对数据一致性要求低查询结果明显小于源数据。数据经过聚合运算后可放入单个服务器的RAM中2 发展趋势step1hive hbase hdfs yarn hadoop zookeeper

2021-08-26 14:48:30 254

原创 hive合并小文件

hive合并小文件创建备用表 create table new_table like old_table;设置合并参数，再将原表数据插入到备用表SET hive.merge.mapfiles = true;SET hive.merge.mapredfiles = true;SET hive.merge.size.per.task = 256000000;SET hive.merge.smallfiles.avgsize = 134217728;SET hive.exec.compr

2021-08-26 14:30:52 221

原创服务器清理内存shell脚本

1 脚本原件：#! /bin/bash #说明#echo 1 > /proc/sys/vm/drop_caches:表示清除pagecache，当前产链服务器缓存主要在这里。#echo 2 > /proc/sys/vm/drop_caches:表示清除回收slab分配器中的对象（包括目录项缓存和inode缓存）。slab分配器是内核中管理内存的一种机制，其中很多缓存数据实现都是用的pagecache。#echo 3 > /proc/sys/vm/drop_caches:表示清除

2021-06-24 11:33:14 593

原创 hadoop shell删除spark日志文件

hdfs占用查询.发现 /spark2-history/目录下占用磁盘最大。[root@node104 ~]# hdfs dfs -du -h / 2.0 G 2.8 G /app-logs56.3 G 112.4 G /apps0 0 /ats5.2 M 5.2 M /atsv20 0 /export1.3 G 1.3 G /hdp0 0 /l

2021-06-24 09:22:22 997

原创 hbase启动报错：Connection refused to node118.data:16030

1 看报错日志crt连接服务器 node118.data[root@node118 hbase]# cd /var/log/hbase[root@node118 hbase]# tail -100 hbase-hbase-regionserver-node118.data.log2021-06-22 15:51:42,753 INFO [regionserver/node118:16020] regionserver.HRegionServer: ***** STOPPING region

2021-06-22 16:33:37 690

原创 Idea依赖木有问题可代码全局飘红的解决办法

1 病症代码依赖一片红，但是依赖全部都在。确定pom木有问题。import RealOnline.{MyKafkaUtil, OffsetManager}import com.alibaba.fastjson.JSONimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.TopicPartition2 治疗2.1 idea的Terminal下执行 mvn idea:ide

2021-06-15 10:49:53 617

原创 6个常用的管理工具

6个常用的管理工具①PDCA 戴明环；②5W2H 七何分析法；③SMART 目标管理原则；④STAR 结构化面试；⑤SWOT 分析矩阵；⑥GROW教练模型。一、PDCA 戴明环意义：无论哪一项工作都离不开PDCA的循环；4个阶段：计划(Plan)、实施(Do)、检查(Check)、行动(Action)；8个步骤：1.分析现状，找出题目→2.分析产生题目的原因→3.要因确认→4.拟定措施、制定计划→5.执行措施、执行计划→6.检查验证、评估效果→7.标准化，固定成绩→8.处理遗留题目。二

2021-06-08 10:25:30 2279

原创 canal+hbase+hive实时数据同步方案

MySQL数据实时同步到HBase实时方案MySQL数据实时同步HBase分两步：第一步先数据初试化，即：将历史数据同步到HBase；第二步将MySQL增量数据实时同步到HBase;一、数据初试化，即：历史数据同步1、方案2、DataX环境搭建2.1、前置条件LinuxJDK(1.8以上，推荐1.8)Python(推荐Python2.6.X)2.2、下载搭建DataX环境cd /optmkdir dataxcd dataxwget http://datax-opensource

2021-04-23 10:28:19 1432

原创 hdfs清理笔记

1 fs.trash.intervalvim core-site.xml <property> <name>fs.trash.interval</name> <value>360</value> </property> <property> <name>fs.trash.checkpoint.interval</name>

2021-04-22 16:50:39 1090

原创 Hbase+Hive+Spark整合

1 环境部署：ambarihivehbasespark2 hive创建hbase映射表（使用hbase目的是为了解决hive的数据更新弊端，做hive映射是为了使用hive -e和sparksql计算数据更便捷）+----------------------------------------------------+| CREATE EXTERNAL TABLE `ods.ods_qu_type_config_test`( || `id` string COMMENT '',

2021-04-07 21:33:35 969 1

原创 hive-e直接计算数据结果到mysql的便捷写法

2 hive直接计算到mysql的shell写法#!bin/bash#source /etc/profileDAY=$1time=$(date "+%Y-%m-%d %H:%M:%S")base_dir=$(cd `dirname ../../`; pwd)if [ ! -n "$DAY" ]; thenDATE=`date +%Y-%m-%d`elseDATE=`date -d "$DAY" +%Y-%m-%d`fiUSER=***PASSWD=***ADDRESS=*

2021-02-24 16:59:21 208

原创 Kafka+SparkStreaming+Mysql实践

1 场景描述1.1需求描述：教学平台产品需要实时更新具体课程浏览量。1.2数据处理：埋点数据到达kafka以后、流计算根据主键更新mysql的数据。1.3工程结构图2 主代码package RealOnlineimport java.sql.{DriverManager, ResultSet}import com.alibaba.fastjson.JSONimport org.apache.kafka.clients.consumer.ConsumerRecordimport org

2021-02-24 16:53:40 318

原创 ambari+hdp安装集群

一各节点改名（改后重新登录）hostnamectl set-hostname node104.datahostnamectl set-hostname node116.datahostnamectl set-hostname node117.datahostnamectl set-hostname node118.datahostnamectl set-hostname node119.datayum -y install lrzsz 各服务器分别安装rz&sz服务上传下载文件

2021-02-20 18:08:29 371

原创 hive报错积累

1 distinctselectcast(a.teach_plan_id as bigint) as teach_plan_id,cast(nvl(teach_activity_num ,0) as int) as teach_activity_num,cast(nvl(knowledge_num,0) as int) as knowledge_numfrom(select distinct id as teach_plan_id from ods.ods_teachingplan where

2021-02-20 18:01:01 486

原创记录ambari+kafka的listeners配置问题

记录ambari+kafka的listeners配置问题1 环境：ambari+kafka1.0.0.3.0直接利用ambari+hdp环境安装了kafka服务。在ambari 的可视化界面 / Services / Kafka / Configs 有如下：listeners为 PLAINTEXT://localhost:9092对应的每一台kafka-broker配置文件 server.properties 则显示: listeners=PLAINTEXT://*.*.*.*:9092

2021-01-07 14:58:21 989

原创 Kafka 常用命令记录

操作 kafka 时记不住shell命令、肿么办？1、查看当前的集群Topic列表[root@node173 ~]# cd /usr/hdp/3.0.1.0-187/kafka/bin[root@node173 bin]# ./kafka-topics.sh --list --zookeeper node173.data:2181 ATLAS_ENTITIES ATLAS_HOOK __consumer_offsets ambari_kafka_service_check demo2、查看所有的To

2020-12-11 11:02:06 288 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

qq_42422698的博客

原创 DBever读取Elasticsearch