自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 资源 (4)
  • 收藏
  • 关注

原创 DBever读取Elasticsearch

ES DBever

2023-11-27 16:56:58 242

原创 flink-OnYarn部署中关于zookeeper的匹配问题

flink-shaded-zookeeper-3.4.14.jar、flink-shaded-zookeeper-3.5.9.jar和flink-shaded-zookeeper-3.6.3.jar在flink1.14.4以及flink15+ onYarn 的适配问题

2023-09-01 17:07:32 380 1

原创 flinkSQL解析kafka数据源格式

flinksql kafka json

2023-05-26 15:17:08 327

原创 Doris 1.2.1-1升级1.2.4-1

doris升级

2023-05-05 17:38:20 166

原创 Doris服务正常-但是执行查询出现time-out

doris 1.2.1 报错

2023-05-05 17:29:48 913

原创 Doris+Flink搭建数据平台

Doris\flink\shell\python\canal\sql

2023-03-10 11:14:15 2332

原创 Kafka 常用命令2

1、查看当前的集群Topic列表./bin/kafka-topics.sh --list --zookeeper cdh-worker-1:2181/kafka2、查看所有的Topic的详细信息./bin/kafka-topics.sh --describe --zookeeper cdh-worker-1:2181/kafka#如果要查看单个 topic 信息:可在上述命令后面添加 --topic <topicName>3、创建Topic./bin/kafka-topics.s

2021-11-15 18:01:57 1406

原创 azkaban-任务执行成功,但是发送预警报错邮件

azkaban-任务执行成功,但是发送预警报错邮件症状:邮件发送 status:PREPARING任务执行情况:status=succees解决办法:azkaban节点 时钟同步脚本内容:[root@node116 ~]# cat ntp6_aliyun.sh #!/bin/bashntpdate ntp6.aliyun.com...

2021-11-08 11:07:08 333

原创 pyspark到mysql

1 先上整体代码import syssys.path.append('/data/gtair/tools/DWH')import pandas as pdfrom sqlalchemy import create_engineengine = create_engine('mysql+pymysql://edu_ws:[email protected]:3306/edu_platform')df_spark =ss.sql("

2021-09-28 15:58:48 243

原创 ambari+hdp下mysql元数据用户ambari、hive、root、azkaban用户密码修改

写在前面ambari+hdp 安装集群的时候密码修改太简单,出于安全考虑,做各用户的密码修改。1 mysql 用户管理表字段CREATE TABLE `user` ( `Host` char(60) COLLATE utf8_bin NOT NULL DEFAULT '', `User` char(32) COLLATE utf8_bin NOT NULL DEFAULT '', `Select_priv` enum('N','Y') CHARACTER SET utf8 NOT NULL

2021-09-07 17:14:49 1413 1

原创 hive函数之collect_set,collect_list,concat_ws,array_contains 联合使用

hive函数之collect_set/collect_list,concat_ws,array_contains 联合使用1 表数据select id,act_status from ods.ods_ta_task limit 6;+----------------------+-------------+| id | act_status |+----------------------+-------------+| 34999455991526037

2021-08-30 16:37:33 893

原创 OLAP场景下大数据领域技术发展趋势

OLAP场景下大数据领域技术发展趋势1 OLAP场景,共同特点:绝大多数是读请求数据批次更新,而不是单行更新已添加到数据库的数据不能修改对于读取,从数据库中提取相当多的行,但只提取列的一小部分,列存储宽表,即每个表包含着大量的列查询相对较少(通常每台服务器每秒查询数百次或更少)事务不是必须的,对数据一致性要求低查询结果明显小于源数据。数据经过聚合运算后可放入单个服务器的RAM中2 发展趋势step1hive hbase hdfs yarn hadoop zookeeper

2021-08-26 14:48:30 254

原创 hive合并小文件

hive合并小文件创建备用表 create table new_table like old_table;设置合并参数,再将原表数据插入到备用表SET hive.merge.mapfiles = true;SET hive.merge.mapredfiles = true;SET hive.merge.size.per.task = 256000000;SET hive.merge.smallfiles.avgsize = 134217728;SET hive.exec.compr

2021-08-26 14:30:52 221

原创 服务器清理内存shell脚本

1 脚本原件:#! /bin/bash #说明#echo 1 > /proc/sys/vm/drop_caches:表示清除pagecache,当前产链服务器缓存主要在这里。#echo 2 > /proc/sys/vm/drop_caches:表示清除回收slab分配器中的对象(包括目录项缓存和inode缓存)。slab分配器是内核中管理内存的一种机制,其中很多缓存数据实现都是用的pagecache。#echo 3 > /proc/sys/vm/drop_caches:表示清除

2021-06-24 11:33:14 593

原创 hadoop shell删除spark日志文件

hdfs占用查询.发现 /spark2-history/目录下占用磁盘最大。[root@node104 ~]# hdfs dfs -du -h / 2.0 G 2.8 G /app-logs56.3 G 112.4 G /apps0 0 /ats5.2 M 5.2 M /atsv20 0 /export1.3 G 1.3 G /hdp0 0 /l

2021-06-24 09:22:22 997

原创 hbase启动报错 :Connection refused to node118.data:16030

1 看报错日志crt连接服务器 node118.data[root@node118 hbase]# cd /var/log/hbase[root@node118 hbase]# tail -100 hbase-hbase-regionserver-node118.data.log2021-06-22 15:51:42,753 INFO [regionserver/node118:16020] regionserver.HRegionServer: ***** STOPPING region

2021-06-22 16:33:37 690

原创 Idea依赖木有问题可代码全局飘红的解决办法

1 病症代码依赖一片红,但是依赖全部都在。确定pom木有问题。import RealOnline.{MyKafkaUtil, OffsetManager}import com.alibaba.fastjson.JSONimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.TopicPartition2 治疗2.1 idea的Terminal下 执行 mvn idea:ide

2021-06-15 10:49:53 617

原创 6个常用的管理工具

6个常用的管理工具①PDCA 戴明环;②5W2H 七何分析法;③SMART 目标管理原则;④STAR 结构化面试;⑤SWOT 分析矩阵;⑥GROW教练模型。一、PDCA 戴明环意义:无论哪一项工作都离不开PDCA的循环;4个阶段:计划(Plan)、实施(Do)、检查(Check)、行动(Action);8个步骤:1.分析现状,找出题目→2.分析产生题目的原因→3.要因确认→4.拟定措施、制定计划→5.执行措施、执行计划→6.检查验证、评估效果→7.标准化,固定成绩→8.处理遗留题目。二

2021-06-08 10:25:30 2279

原创 canal+hbase+hive实时数据同步方案

MySQL数据实时同步到HBase实时方案MySQL数据实时同步HBase分两步:第一步先数据初试化,即:将历史数据同步到HBase;第二步将MySQL增量数据实时同步到HBase;一、数据初试化,即:历史数据同步1、方案2、DataX环境搭建2.1、前置条件LinuxJDK(1.8以上,推荐1.8)Python(推荐Python2.6.X)2.2、下载搭建DataX环境cd /optmkdir dataxcd dataxwget http://datax-opensource

2021-04-23 10:28:19 1432

原创 hdfs清理笔记

1 fs.trash.intervalvim core-site.xml <property> <name>fs.trash.interval</name> <value>360</value> </property> <property> <name>fs.trash.checkpoint.interval</name>

2021-04-22 16:50:39 1090

原创 Hbase+Hive+Spark整合

1 环境部署:ambarihivehbasespark2 hive创建hbase映射表(使用hbase目的是为了解决hive的数据更新弊端,做hive映射是为了使用hive -e和sparksql计算数据更便捷 )+----------------------------------------------------+| CREATE EXTERNAL TABLE `ods.ods_qu_type_config_test`( || `id` string COMMENT '',

2021-04-07 21:33:35 969 1

原创 hive-e直接计算数据结果到mysql的便捷写法

2 hive直接计算到mysql的shell写法#!bin/bash#source /etc/profileDAY=$1time=$(date "+%Y-%m-%d %H:%M:%S")base_dir=$(cd `dirname ../../`; pwd)if [ ! -n "$DAY" ]; thenDATE=`date +%Y-%m-%d`elseDATE=`date -d "$DAY" +%Y-%m-%d`fiUSER=***PASSWD=***ADDRESS=*

2021-02-24 16:59:21 208

原创 Kafka+SparkStreaming+Mysql实践

1 场景描述1.1需求描述:教学平台产品需要实时更新具体课程浏览量。1.2数据处理:埋点数据到达kafka以后、流计算根据主键更新mysql的数据。1.3工程结构图2 主代码package RealOnlineimport java.sql.{DriverManager, ResultSet}import com.alibaba.fastjson.JSONimport org.apache.kafka.clients.consumer.ConsumerRecordimport org

2021-02-24 16:53:40 318

原创 ambari+hdp安装集群

一 各节点改名(改后重新登录)hostnamectl set-hostname node104.datahostnamectl set-hostname node116.datahostnamectl set-hostname node117.datahostnamectl set-hostname node118.datahostnamectl set-hostname node119.datayum -y install lrzsz 各服务器分别安装rz&sz服务上传下载文件

2021-02-20 18:08:29 371

原创 hive报错积累

1 distinctselectcast(a.teach_plan_id as bigint) as teach_plan_id,cast(nvl(teach_activity_num ,0) as int) as teach_activity_num,cast(nvl(knowledge_num,0) as int) as knowledge_numfrom(select distinct id as teach_plan_id from ods.ods_teachingplan where

2021-02-20 18:01:01 486

原创 记录ambari+kafka的listeners配置问题

记录ambari+kafka的listeners配置问题1 环境:ambari+kafka1.0.0.3.0直接利用ambari+hdp环境安装了kafka服务。在ambari 的可视化界面 / Services / Kafka / Configs 有如下:listeners为 PLAINTEXT://localhost:9092对应的每一台kafka-broker配置文件 server.properties 则显示: listeners=PLAINTEXT://*.*.*.*:9092

2021-01-07 14:58:21 989

原创 Kafka 常用命令记录

操作 kafka 时记不住shell命令、肿么办?1、查看当前的集群Topic列表[root@node173 ~]# cd /usr/hdp/3.0.1.0-187/kafka/bin[root@node173 bin]# ./kafka-topics.sh --list --zookeeper node173.data:2181 ATLAS_ENTITIES ATLAS_HOOK __consumer_offsets ambari_kafka_service_check demo2、查看所有的To

2020-12-11 11:02:06 288 1

原创 clickhouse-20.6.6.7单节点安装教程(附带安装包)

clickhouse-20.6.6.7单节点安装教程(附带安装包)1 硬件配置服务器:1台操作系统:Centos7.7内存:64G及以上硬盘:1T及以上2 部署模式clickhouse部署单机单节点模式3 提前准备安装文件(文末提供)clickhouse-client-20.6.6.7-1.el7.x86_64.rpmclickhouse-common-static-20.6.6.7-1.el7.x86_64.rpmclickhouse-server-20.6.6.7-1.el7.x8

2020-12-09 10:08:45 633 2

原创 azkaban3.90.0安装部署

azkaban3.90.0安装部署写在前面我采用第三种模式,即一台机器安装webServer服务,多台机器安装execServer.这种模式是使用最广泛的。1 solo-server模式 (使用内置h2存储元数据);2 two-server模式 (1个webServer,1个execServer在同一服务器上,使用mysql存储元数据);3 multiple-executor模式 (1个webServer,多个execServer分布在不同服务上,使用mysql存储元数据);基础环境My

2020-10-30 17:54:34 1087

ambari安装参考文档.doc

ambari\hdp

2021-03-16

SQLyog-12.0.8-0.x64.zip

SQLyog-12.0.8-0.x64,mysql连接神器,解压即可使用。桌面版轻便快速的安装包。欢迎大家使用。

2020-12-09

DBeaver.zip

DBeave安装包。可以连接clickhouse、mysql、hive、elasticsearch以及其他各种常用数据库。解压即可使用。

2020-12-09

clickhouse.zip

本资源包括安装包如下: clickhouse-client-20.6.6.7-1.el7.x86_64.rpm clickhouse-common-static-20.6.6.7-1.el7.x86_64.rpm clickhouse-server-20.6.6.7-1.el7.x86_64.rpm clickhouse-server-common-20.6.6.7-1.el7.x86_64.rpm

2020-12-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除