WSS_XMZ-CSDN博客

原创 Spark任务写数据到s3，默认单线程移动数据，执行时间很长

一、场景目前使用s3替代hdfs作为hive表数据存储，使用spark sql insert数据到hive表，发现一个简单的查询+插入任务，查询+insert的动作显示已经执行完，任务还在跑，直到跑了两个小时后才执行结束。二、原因s3对spark默认的commit操作兼容性不强，spark有两种commit操作，一种是commit task，在executor上执行，一种是comm...

2022-10-13 17:37:00 285

原创 springboot异步线程池配置

springboot异步线程池配置package com.sangfor.api.config;import org.springframework.aop.interceptor.AsyncUncaughtExceptionHandler;import org.springframework.context.annotation.Bean;import org.springframe...

2022-10-13 10:33:00 162

原创 springboot配置多数据源mysql，presto，hive等

下面案例是配置多数据源，两个及以上，但是主数据源只能是一个，默认mybatis使用的是主数据源下面配置mysql为主数据源，通过注解@Primary标注yaml文件配置：spring: datasource: mysqlMain: #mysql主数据源，可关联mybatis type: com.alibaba.druid.pool.DruidDataSource ...

2022-10-13 10:28:00 436

原创 Docker安装ClickHouse数据库（五）

一、准备工作1.安装docker-ce (有docker老版本也可以直接使用)安装依赖的软件包yum install -y yum-utils device-mapper-persistent-data lvm2配置Docker的阿里云yum源1 yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/...

2021-09-02 12:08:00 163

原创 Docker安装SqlServer（四）

一、准备工作1.安装docker-ce (有docker老版本也可以直接使用)安装依赖的软件包yum install -y yum-utils device-mapper-persistent-data lvm2配置Docker的阿里云yum源1 yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/...

2021-09-02 12:00:00 94

原创 Docker安装PgSQL数据库（三）

一、准备工作安装docker-ce (有docker老版本也可以直接使用)安装依赖的软件包yum install -y yum-utils device-mapper-persistent-data lvm2配置Docker的阿里云yum源1 yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/li...

2021-09-02 11:53:00 135

原创 Docker安装Oracle数据库（二）

一、准备工作1.安装docker-ce (有docker老版本也可以直接使用)安装依赖的软件包yum install -y yum-utils device-mapper-persistent-data lvm2配置Docker的阿里云yum源1 yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/...

2021-09-02 11:45:00 102

原创安装Docker

1.Docker安装1.1.卸载旧版本1 sudo yum remove docker \2 docker-client \3 docker-client-latest \4 docker-common \5 docker-lates...

2021-09-02 11:28:00 76

原创 Docker安装MySQL数据库（一）

准备工作安装docker-ce (有docker老版本也可以直接使用)安装依赖的软件包yum install -y yum-utils device-mapper-persistent-data lvm2配置Docker的阿里云yum源1 yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/lin...

2021-09-02 11:21:00 77

原创 Debezium监控MySQL，PGsql，SQLServer

1.Debezium简介Debezium 是一个分布式平台，它将现有的数据库转换为事件流，应用程序消费事件流，就可以知道数据库中的每一个行级更改，并立即做出响应。Debezium 构建在 Apache Kafka 之上，并提供 Kafka 连接器来监视特定的数据库。在介绍 Debezium 之前，我们要先了解一下什么是 Kafka Connect。2.Debezium架构最常见的是，D...

2021-07-09 17:35:00 407

原创 python生成数据仓库日期维度表

设计一张日期维度表表名称：DIM_PUB_DATE具体属性值：字段名称字段类型字段描述示例dsstringId(主键)20210624d_datestring日期2021-06-24d_datetimestring日期(包含时分秒)2021-06-24 00:00:00...

2021-07-09 17:14:00 175

原创 Flink-cdc实时读postgresql

由于公司业务需要，需要实时同步pgsql数据，我们选择使用flink-cdc方式进行架构图：前提步骤:1，更改配置文件postgresql.conf# 更改wal日志方式为logicalwal_level = logical # minimal, replica, or logical# 更改solts最大数量(默认值为10)，flink-cdc默认一张表占用...

2021-05-27 14:06:00 306

原创 flink-cdc读取postgres报异常，没有发布表

异常信息must be superuser to create FOR ALL TABLES publication必须是超级用户才能为所有发布表创建网上搜索了一天，都毫无头绪，后面搜索到了一个https://blog.csdn.net/Zznxz0601/article/details/116166269感觉像这个东西：设置如下：-- 设置发布开关update pg_publ...

2021-04-29 15:59:00 324

原创身份证地域映射表

身份证号前六位对应省市列表addressIDtownNameProvinceIDProvinceNameRegionName110000北京市11北京市华北地区110100市辖区11北京市华北地区110101东城区11北京市华北地区110102西城区11北京市华北地区110105朝阳区11北京市华北地区...

2019-06-18 12:02:00 571

原创启动kafaka失败了，提示zk保存kafka的ids已经在使用。

FATAL [Kafka Server 1], Fatal error during KafkaServer startup. Prepare to shutdown (kafka.server.KafkaServer)java.lang.RuntimeException: A broker is already registered on the path /brokers/ids/1. T...

2019-05-02 10:31:00 171

原创 MySQL--索引优化

优化口诀：全值匹配我最爱，最左前缀要遵守；带头大哥不能死，中间兄弟不能断；索引列上少计算，范围之后全失效；Like百分写最右，覆盖索引不写星；不等空值还有or，索引失效要少用；VAR引号不可丢，SQL高级也不难！“全值匹配我最爱”“带头大哥不能死”，火车头可以单独跑，车厢不能单独跑“最左前缀要遵守”，组合索引：name,Age,Pos，但是只有当最左侧的name存在时...

2019-04-26 19:43:00 67

原创 JVM虚拟机个人理解

针对于java1.8版本，JVM的系统架构类加载机制：堆内存结构图：面试题：一个对象从创建到销毁经历了什么？1、new一个对象时，在堆内存中开辟一块空间。2、给开辟的空间分配一个地址。3、把对象的所有非静态成员加载到所开辟的空间下。4、所有的非静态成员加载完成之后，对所有非静态成员变量进行默认初始化。5、所有非静态成员变量默认初始化完成之后，调用构造函数。6、在构造函...

2019-04-25 21:14:00 66

原创 JUC笔记

3个售票员，卖30张票package com.javase.thread;import java.util.concurrent.locks.Lock;import java.util.concurrent.locks.ReentrantLock;class Ticket {private int number = 30;private Lock lo...

2019-04-23 23:56:00 69

原创 Spark累加器(Accumulator)陷阱及解决办法

累加器(accumulator)是Spark中提供的一种分布式的变量机制，其原理类似于mapreduce，即分布式的改变，然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。Spark内置的提供了Long和Double类型的累加器。下面是一个简单的使用示例，在这个例子中我们在过滤掉RDD中奇数的同时进行计数，最后计算剩下整数的和。 1 val spar...

2019-04-22 21:12:00 107

原创 hive求TopN语句

ROW_NUMBER，RANK()，DENSE_RANK()先了解这三个之间的区别：Rank()：1,2,2,4,5(一般用这个较多，不会影响总排名)Dense_rank()：1,2,2,3,4,5(会影响最终排名)Row_number()：1,2,3,4,5,6(按照行数显示)语法格式：row_number() OVER (partition by COL1 order by ...

2019-04-15 21:03:00 86

原创 Spark内部执行机制

Spark内部执行机制1.1 内部执行流程　　如下图1为分布式集群上spark应用程序的一般执行框架。主要由sparkcontext(spark上下文)、cluster manager(资源管理器)和▪executor(单个节点的执行进程)。其中cluster manager负责整个集群的统一资源管理。executor是应用执行的主要进程，内部含有多个task线程以及内存空间。...

2019-04-13 08:59:00 87

原创 Java在线编程

2019-03-29 21:18:00 65

原创 Hbase 技术细节笔记（下）

原文地址：https://cloud.tencent.com/developer/article/1006044四、RegionServer的故障恢复我们知道，RegionServer的相关信息保存在ZK中，在RegionServer启动的时候，会在Zookeeper中创建对应的临时节点。RegionServer通过Socket和Zookeeper建立session会话，RegionSer...

2019-03-08 18:48:00 65

原创 Hbase 技术细节笔记（上）

原文地址：https://cloud.tencent.com/developer/article/1006043前言最近在跟进Hbase的相关工作，由于之前对Hbase并不怎么了解，因此系统地学习了下Hbase，为了加深对Hbase的理解，对相关知识点做了笔记，并在组内进行了Hbase相关技术的分享，由于Hbase涵盖的内容比较多，因此计划分享2期，下面就是针对第一期Hbase技术分享整体...

2019-03-08 18:44:00 67

原创全排列算法（递归和字典）

一个算法命题：给定字符串S[0…N-1]，设计算法，枚举S的全排列。如：123，全排列就是：123,132,213,231,312,321个人愚昧，搞了一天半，才终于把字典排列搞出来，看不到大神写的代码，我的代码还有很多优化之处，先记录下，递归现在还是有点蒙。java代码：递归实现(考虑有重复的字符)以字符串1234为例：1 – 2342 – 1343 – 2144 – 231如何保证...

2019-03-06 15:21:00 45

原创一分钟掌握位运算符—与（&）、非（~）、或（|）、异或（^）

第一个版本：位运算符的计算主要用在二进制中。实际开发中也经常会遇到需要用到这些运算符的时候，同时这些运算符也被作为基础的面试笔试题。所以了解这些运算符对程序员来说是十分必要的。于此，记录下我所理解的运算符：如果以开关开灯论：有这样两个开关，0为开关关闭，1为开关打开。与(&)运算与运算进行的是这样的算法：0&0=0,0&1=0,1&amp...

2019-02-25 22:35:00 61

原创 MySQL中count函数使用方法详解

count函数是用来统计表中或数组中记录的一个函数，下面我来介绍在MySQL中count函数用法与性能比较吧。count(*) 它返回检索行的数目，不论其是否包含 NULL值。SELECT 从一个表中检索，而不检索其它的列，并且没有 WHERE子句时， COUNT(*)被优化到最快的返回速度。例如：SELECT COUNT(*) FROM student;COUNT(...

2019-02-24 15:41:00 151

原创 ZAB协议与Paxos算法

ZooKeeper并没有直接采用Paxos算法，而是采用一种被称为ZAB(ZooKeeper Atomic Broadcast)的一致性协议ZooKeeper是一个典型的分布式数据一致性的解决方案，分布式应用程序可以基于它实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能ZooKeeper致力于提供一个高性能、高可用，具...

2019-02-22 19:31:00 54

原创泊松分酒(穷举法)

泊松是法国数学家、物理学家和力学家。他一生致力科学事业，成果颇多。有许多著名的公式定理以他的名字命名，比如概率论中著名的泊松分布。有一次闲暇时，他提出过一个有趣的问题，后称为：“泊松分酒”。在我国古代也提出过类似问题，遗憾的是没有进行彻底探索，其中流传较多是：“韩信走马分油”问题。有3个容器，容量分别为12升，8升，5升。其中12升中装满油，另外两个空着。要求你只用3个容器操...

2019-02-14 10:30:00 119

原创 hadoop解决Could not locate executable null\bin\winutils.exe in the Hadoop binaries.问题

先看下自己的JAVA_HOME里面有没有空格目录，如果有的话，先把JAVA_HOME换个没空格的位置。在windows系统本地运行spark的wordcount程序，会出现一个异常，但不影响现有程序运行。总归是一个异常，老是爆红，看着心烦，下面是异常信息让我们源码追踪一下，看看到底是什么原因导致，点击第一行爆红的异常信息提示，就是(shell.java:355)看到我的截图提示，大...

2019-01-16 15:48:00 73

原创 Redis系列八：redis主从复制和哨兵

一、Redis主从复制主从复制：主节点负责写数据，从节点负责读数据，主节点定期把数据同步到从节点保证数据的一致性1. 主从复制的相关操作a,配置主从复制方式一、新增redis6380.conf, 加入 slaveof 192.168.152.1286379, 在6379启动完后再启6380，完成配置；b,配置主从复制方式二、redis-server --slaveof 192.168....

2019-01-10 09:37:00 52

原创 java单链表反转（花了半个多小时的作品）

欢迎光临...............首先我们要搞清楚链表是啥玩意儿？先看看定义：讲链表之前我们先说说Java内存的分配情况：我们new对象的时候，会在java堆中为对象分配内存，当我们调用方法的时候，会将方法加载到方法区，在方法区保存了加载类的信息，常量，静态变量等等。搞明白这个我们再来讲链表。链表是一种物理存储单元上非连续、非顺序的存储结构，数据元素的逻辑顺...

2018-12-22 22:23:00 59

原创 java实现单链表反转（倒置）

据说单链表反转问题面试中经常问，而链表这个东西相对于数组的确稍微难想象，因此今天纪录一下单链表反转的代码。1，先定义一个节点类。1 public class Node {2 int index;3 Node next;4 5 public Node(int index, Node next) {6 this.index = index;7 ...

2018-12-22 21:11:00 60

原创 Java 并发编程：volatile的使用及其原理

Java并发编程系列：Java 并发编程：核心理论Java并发编程：Synchronized及其实现原理Java并发编程：Synchronized底层优化(轻量级锁、偏向锁)Java 并发编程：线程间的协作(wait/notify/sleep/yield/join)Java 并发编程：volatile的使用及其原理一、volatile的作用　　在《Ja...

2018-12-11 20:44:00 53

原创 Java 并发编程：线程间的协作(wait/notify/sleep/yield/join)

Java并发编程系列：Java 并发编程：核心理论Java并发编程：Synchronized及其实现原理Java并发编程：Synchronized底层优化(轻量级锁、偏向锁)Java 并发编程：线程间的协作(wait/notify/sleep/yield/join)Java 并发编程：volatile的使用及其原理一、线程的状态　　Java中线程中状态...

2018-12-11 20:43:00 79

原创 Java并发编程：Synchronized底层优化（偏向锁、轻量级锁）

Java并发编程系列：Java 并发编程：核心理论Java并发编程：Synchronized及其实现原理Java并发编程：Synchronized底层优化(轻量级锁、偏向锁)Java 并发编程：线程间的协作(wait/notify/sleep/yield/join)Java 并发编程：volatile的使用及其原理一、重量级锁　　上篇文章中向大家介...

2018-12-11 20:42:00 89

原创 Java并发编程：Synchronized及其实现原理

Java并发编程系列：Java 并发编程：核心理论Java并发编程：Synchronized及其实现原理Java并发编程：Synchronized底层优化(轻量级锁、偏向锁)Java 并发编程：线程间的协作(wait/notify/sleep/yield/join)Java 并发编程：volatile的使用及其原理一、Synchronized的基本使用　...

2018-12-11 20:41:00 86

原创 Java 并发编程：核心理论

Java并发编程系列：Java 并发编程：核心理论Java并发编程：Synchronized及其实现原理Java并发编程：Synchronized底层优化(轻量级锁、偏向锁)Java 并发编程：线程间的协作(wait/notify/sleep/yield/join)Java 并发编程：volatile的使用及其原理　　并发编程是Java程序员最重要的技能之...

2018-12-11 20:38:00 55

原创 Java基础知识

Java基础知识精华部分写代码：1，明确需求。我要做什么？2，分析思路。我要怎么做？1,2,3。3，确定步骤。每一个思路部分用到哪些语句，方法，和对象。4，代码实现。用具体的java语言代码把思路体现出来。学习新技术的四点：1，该技术是什么？2，该技术有什么特点(使用注意)：3，该技术怎么使用。demo4，该技术什么时候用？test。-------------------...

2018-12-10 16:07:00 54

原创 HashMap实现原理（jdk1.7/jdk1.8）

HashMap的底层实现：1、简单回答 JDK1.7：HashMap的底层实现是：数组+链表 JDK1.8：HashMap的底层实现是：数组+链表/红黑树为什么要红黑树？红黑树：一个自平衡的二叉树当结点多了用红黑树，少了用链表因为少的话用红黑树太复杂，多了话用红黑树可以提高查询效率。红黑树：(自动调整根结点，保证左右两边的结点数差不多)，它会左旋，右旋来实现。...

2018-12-09 12:31:00 78

空空如也

空空如也