- 博客(33)
- 资源 (4)
- 收藏
- 关注
原创 flink-OnYarn部署中关于zookeeper的匹配问题
flink-shaded-zookeeper-3.4.14.jar、flink-shaded-zookeeper-3.5.9.jar和flink-shaded-zookeeper-3.6.3.jar在flink1.14.4以及flink15+ onYarn 的适配问题
2023-09-01 17:07:32 722 1
原创 Kafka 常用命令2
1、查看当前的集群Topic列表./bin/kafka-topics.sh --list --zookeeper cdh-worker-1:2181/kafka2、查看所有的Topic的详细信息./bin/kafka-topics.sh --describe --zookeeper cdh-worker-1:2181/kafka#如果要查看单个 topic 信息:可在上述命令后面添加 --topic <topicName>3、创建Topic./bin/kafka-topics.s
2021-11-15 18:01:57 1471
原创 azkaban-任务执行成功,但是发送预警报错邮件
azkaban-任务执行成功,但是发送预警报错邮件症状:邮件发送 status:PREPARING任务执行情况:status=succees解决办法:azkaban节点 时钟同步脚本内容:[root@node116 ~]# cat ntp6_aliyun.sh #!/bin/bashntpdate ntp6.aliyun.com...
2021-11-08 11:07:08 376
原创 pyspark到mysql
1 先上整体代码import syssys.path.append('/data/gtair/tools/DWH')import pandas as pdfrom sqlalchemy import create_engineengine = create_engine('mysql+pymysql://edu_ws:QbvkrBHKXO@chb2gc-pd-edu-dws.mysql.rds.aliyuncs.com:3306/edu_platform')df_spark =ss.sql("
2021-09-28 15:58:48 264
原创 ambari+hdp下mysql元数据用户ambari、hive、root、azkaban用户密码修改
写在前面ambari+hdp 安装集群的时候密码修改太简单,出于安全考虑,做各用户的密码修改。1 mysql 用户管理表字段CREATE TABLE `user` ( `Host` char(60) COLLATE utf8_bin NOT NULL DEFAULT '', `User` char(32) COLLATE utf8_bin NOT NULL DEFAULT '', `Select_priv` enum('N','Y') CHARACTER SET utf8 NOT NULL
2021-09-07 17:14:49 1575 1
原创 hive函数之collect_set,collect_list,concat_ws,array_contains 联合使用
hive函数之collect_set/collect_list,concat_ws,array_contains 联合使用1 表数据select id,act_status from ods.ods_ta_task limit 6;+----------------------+-------------+| id | act_status |+----------------------+-------------+| 34999455991526037
2021-08-30 16:37:33 930
原创 OLAP场景下大数据领域技术发展趋势
OLAP场景下大数据领域技术发展趋势1 OLAP场景,共同特点:绝大多数是读请求数据批次更新,而不是单行更新已添加到数据库的数据不能修改对于读取,从数据库中提取相当多的行,但只提取列的一小部分,列存储宽表,即每个表包含着大量的列查询相对较少(通常每台服务器每秒查询数百次或更少)事务不是必须的,对数据一致性要求低查询结果明显小于源数据。数据经过聚合运算后可放入单个服务器的RAM中2 发展趋势step1hive hbase hdfs yarn hadoop zookeeper
2021-08-26 14:48:30 301
原创 hive合并小文件
hive合并小文件创建备用表 create table new_table like old_table;设置合并参数,再将原表数据插入到备用表SET hive.merge.mapfiles = true;SET hive.merge.mapredfiles = true;SET hive.merge.size.per.task = 256000000;SET hive.merge.smallfiles.avgsize = 134217728;SET hive.exec.compr
2021-08-26 14:30:52 264
原创 服务器清理内存shell脚本
1 脚本原件:#! /bin/bash #说明#echo 1 > /proc/sys/vm/drop_caches:表示清除pagecache,当前产链服务器缓存主要在这里。#echo 2 > /proc/sys/vm/drop_caches:表示清除回收slab分配器中的对象(包括目录项缓存和inode缓存)。slab分配器是内核中管理内存的一种机制,其中很多缓存数据实现都是用的pagecache。#echo 3 > /proc/sys/vm/drop_caches:表示清除
2021-06-24 11:33:14 747
原创 hadoop shell删除spark日志文件
hdfs占用查询.发现 /spark2-history/目录下占用磁盘最大。[root@node104 ~]# hdfs dfs -du -h / 2.0 G 2.8 G /app-logs56.3 G 112.4 G /apps0 0 /ats5.2 M 5.2 M /atsv20 0 /export1.3 G 1.3 G /hdp0 0 /l
2021-06-24 09:22:22 1096
原创 hbase启动报错 :Connection refused to node118.data:16030
1 看报错日志crt连接服务器 node118.data[root@node118 hbase]# cd /var/log/hbase[root@node118 hbase]# tail -100 hbase-hbase-regionserver-node118.data.log2021-06-22 15:51:42,753 INFO [regionserver/node118:16020] regionserver.HRegionServer: ***** STOPPING region
2021-06-22 16:33:37 777
原创 Idea依赖木有问题可代码全局飘红的解决办法
1 病症代码依赖一片红,但是依赖全部都在。确定pom木有问题。import RealOnline.{MyKafkaUtil, OffsetManager}import com.alibaba.fastjson.JSONimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.TopicPartition2 治疗2.1 idea的Terminal下 执行 mvn idea:ide
2021-06-15 10:49:53 650
原创 6个常用的管理工具
6个常用的管理工具①PDCA 戴明环;②5W2H 七何分析法;③SMART 目标管理原则;④STAR 结构化面试;⑤SWOT 分析矩阵;⑥GROW教练模型。一、PDCA 戴明环意义:无论哪一项工作都离不开PDCA的循环;4个阶段:计划(Plan)、实施(Do)、检查(Check)、行动(Action);8个步骤:1.分析现状,找出题目→2.分析产生题目的原因→3.要因确认→4.拟定措施、制定计划→5.执行措施、执行计划→6.检查验证、评估效果→7.标准化,固定成绩→8.处理遗留题目。二
2021-06-08 10:25:30 2370
原创 canal+hbase+hive实时数据同步方案
MySQL数据实时同步到HBase实时方案MySQL数据实时同步HBase分两步:第一步先数据初试化,即:将历史数据同步到HBase;第二步将MySQL增量数据实时同步到HBase;一、数据初试化,即:历史数据同步1、方案2、DataX环境搭建2.1、前置条件LinuxJDK(1.8以上,推荐1.8)Python(推荐Python2.6.X)2.2、下载搭建DataX环境cd /optmkdir dataxcd dataxwget http://datax-opensource
2021-04-23 10:28:19 1533
原创 hdfs清理笔记
1 fs.trash.intervalvim core-site.xml <property> <name>fs.trash.interval</name> <value>360</value> </property> <property> <name>fs.trash.checkpoint.interval</name>
2021-04-22 16:50:39 1145
原创 Hbase+Hive+Spark整合
1 环境部署:ambarihivehbasespark2 hive创建hbase映射表(使用hbase目的是为了解决hive的数据更新弊端,做hive映射是为了使用hive -e和sparksql计算数据更便捷 )+----------------------------------------------------+| CREATE EXTERNAL TABLE `ods.ods_qu_type_config_test`( || `id` string COMMENT '',
2021-04-07 21:33:35 1157 1
原创 hive-e直接计算数据结果到mysql的便捷写法
2 hive直接计算到mysql的shell写法#!bin/bash#source /etc/profileDAY=$1time=$(date "+%Y-%m-%d %H:%M:%S")base_dir=$(cd `dirname ../../`; pwd)if [ ! -n "$DAY" ]; thenDATE=`date +%Y-%m-%d`elseDATE=`date -d "$DAY" +%Y-%m-%d`fiUSER=***PASSWD=***ADDRESS=*
2021-02-24 16:59:21 251
原创 Kafka+SparkStreaming+Mysql实践
1 场景描述1.1需求描述:教学平台产品需要实时更新具体课程浏览量。1.2数据处理:埋点数据到达kafka以后、流计算根据主键更新mysql的数据。1.3工程结构图2 主代码package RealOnlineimport java.sql.{DriverManager, ResultSet}import com.alibaba.fastjson.JSONimport org.apache.kafka.clients.consumer.ConsumerRecordimport org
2021-02-24 16:53:40 353
原创 ambari+hdp安装集群
一 各节点改名(改后重新登录)hostnamectl set-hostname node104.datahostnamectl set-hostname node116.datahostnamectl set-hostname node117.datahostnamectl set-hostname node118.datahostnamectl set-hostname node119.datayum -y install lrzsz 各服务器分别安装rz&sz服务上传下载文件
2021-02-20 18:08:29 435
原创 hive报错积累
1 distinctselectcast(a.teach_plan_id as bigint) as teach_plan_id,cast(nvl(teach_activity_num ,0) as int) as teach_activity_num,cast(nvl(knowledge_num,0) as int) as knowledge_numfrom(select distinct id as teach_plan_id from ods.ods_teachingplan where
2021-02-20 18:01:01 571
原创 记录ambari+kafka的listeners配置问题
记录ambari+kafka的listeners配置问题1 环境:ambari+kafka1.0.0.3.0直接利用ambari+hdp环境安装了kafka服务。在ambari 的可视化界面 / Services / Kafka / Configs 有如下:listeners为 PLAINTEXT://localhost:9092对应的每一台kafka-broker配置文件 server.properties 则显示: listeners=PLAINTEXT://*.*.*.*:9092
2021-01-07 14:58:21 1077
原创 Kafka 常用命令记录
操作 kafka 时记不住shell命令、肿么办?1、查看当前的集群Topic列表[root@node173 ~]# cd /usr/hdp/3.0.1.0-187/kafka/bin[root@node173 bin]# ./kafka-topics.sh --list --zookeeper node173.data:2181 ATLAS_ENTITIES ATLAS_HOOK __consumer_offsets ambari_kafka_service_check demo2、查看所有的To
2020-12-11 11:02:06 352 1
原创 clickhouse-20.6.6.7单节点安装教程(附带安装包)
clickhouse-20.6.6.7单节点安装教程(附带安装包)1 硬件配置服务器:1台操作系统:Centos7.7内存:64G及以上硬盘:1T及以上2 部署模式clickhouse部署单机单节点模式3 提前准备安装文件(文末提供)clickhouse-client-20.6.6.7-1.el7.x86_64.rpmclickhouse-common-static-20.6.6.7-1.el7.x86_64.rpmclickhouse-server-20.6.6.7-1.el7.x8
2020-12-09 10:08:45 810 2
原创 azkaban3.90.0安装部署
azkaban3.90.0安装部署写在前面我采用第三种模式,即一台机器安装webServer服务,多台机器安装execServer.这种模式是使用最广泛的。1 solo-server模式 (使用内置h2存储元数据);2 two-server模式 (1个webServer,1个execServer在同一服务器上,使用mysql存储元数据);3 multiple-executor模式 (1个webServer,多个execServer分布在不同服务上,使用mysql存储元数据);基础环境My
2020-10-30 17:54:34 1134
clickhouse.zip
2020-12-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人