McGrady_Durant-CSDN博客

原创 flinkCDC

DataStream 在 Flink1.12 和 1.13 都可以用，而 FlinkSQL 只能在 Flink1.13 使用。DataStream 可以同时监控多库多表，而 FlinkSQL 只能监控单表。

2023-06-13 16:46:16 1112

原创 InfluxDB（HA）

{influxdb目录}/etc/influxdb/influxdb.conf。安装1.8.0版本，借助1.1.0版本的UI界面。{influxdb目录}/usr/bin。解压后，编辑proxy.json。在客户端工具窗口执行。

2023-04-11 23:08:56 585

link:https://blog.csdn.net/sinat_29957455/article/details/836570291. 安装插件：pip3 install sphinxpip3 install sphinx_rtd_theme2. 新建一个项目：3. 使用sphinx建立API文档项目：进入到doc目录下，输入sphinx-quickstart命令，会输出选项。注意看图中需要输入的内容！项目创建后目录结构如下：build:用来存放通过make html生成文档网页

2022-05-12 16:48:47 1958

原创 Oracle安装（docker版）

link:https://blog.csdn.net/qq_39316391/article/details/100542751一，简介Oracle Database，又名Oracle RDBMS，或简称Oracle。是甲骨文公司的一款关系数据库管理系统。借助docker，安装oracle不再困难，只需要几步即可。需要注意，在参考本文章之前，需要具备操作docker的基础，怎么使用docker，可以参考这里二，安装2.1、安装oracle 11g镜像到docker2.1.1、搜索符合条件的镜像

2022-05-12 16:25:42 6736

原创 MySQL5.7.24(linux直装)

clear.sh#!/bin/bashrpm -qa|grep mysqlecho 请使用echo rpm -e --nodeps mysql-libs-5.1.73-5.eXXXXXecho 执行删除，确保上方展示内容全部删除。echo ""whereis mysqlecho 请使用echo rm -rf XXXecho 执行删除，确保上方展示内容全部删除。echo ""find / -name mysqlecho 请使用echo rm -rf XXXXXecho 执行删除，

2022-05-12 16:18:12 267

原创 MySQL8.0.25安装（linux直装）

1.先清理linux系统中存在的mysql#!/bin/bashrpm -qa|grep mysqlecho 请使用echo rpm -e --nodeps mysql-libs-5.1.73-5.eXXXXXecho 执行删除，确保上方展示内容全部删除。echo ""whereis mysqlecho 请使用echo rm -rf XXXecho 执行删除，确保上方展示内容全部删除。echo ""find / -name mysqlecho 请使用echo rm -rf XXX

2022-05-12 16:08:50 617

原创 get_json_object

原文链接：https://blog.csdn.net/qq_34105362/article/details/80454697get_json_object说明：第一个参数填写json对象变量，第二个参数使用$表示json变量标识，然后用 . 或 [] 读取对象或数组；如果输入的json字符串无效，那么返回NULL。每次只能返回一个数据项。举例：data 为 test表中的字段，数据结构如下：data ={ "store": { "fruit":[{"

2021-10-19 14:16:59 581

原创 ClickHouse安装(docker版)

直接运行, docker会自动帮你拉取镜像:docker run -d --name ch-server --ulimit nofile=262144:262144 -p 8123:8123 -p 9000:9000 -p 9009:9009 yandex/clickhouse-server查看镜像[root@ly-A2 ~]# docker psCONTAINER ID IMAGE COMMAND CREAT.

2021-10-18 14:34:07 413

原创 Kafka生产者之数据可靠性保证

为保证producer发送的数据，能可靠的发送到指定的topic，topic的每个partition收到producer发送的数据后，都需要向producer发送ack（acknowledgement确认收到），如果producer收到ack，就会进行下一轮的发送，否则重新发送数据。ack应答机制对于某些不太重要的数据，对数据的可靠性要求不是很高，能够容忍数据的少量丢失，所以没必要等ISR中的follower全部接收成功。所以Kafka为用户提供了三种可靠性级别，用户根据对可靠性和延迟的要求进行权衡，

2021-08-31 23:16:18 174

原创 SpringMVC

一、Springmvc作用替代servlet,实现简化代码的目的。主要处理：收参，调用业务类方法，存储数据到作用域，添砖到jsp。servlet的缺点：需要继承HttpServlet类.加大了类的耦合度.需要重写service方法.一个类只能完成一个操作，类的个数很多.service里面的代码重复性太多.收参,类型转换,封装成实体类型.跳转哪个jsp中需要的重复性代码也很多.二、 Springmvc开发步骤springmvc是一个mvc框架。springmvc是sprin

2021-08-22 16:39:22 187

原创 Mybatis

文章目录一、什么是mybatis二、搭建mybatis的开发环境三、查询操作四、增删改查查增删改五、junt测试六、dao中多个参数问题七、动态SQL多条件查询打印sql语句批量删除八、数据库中字段名和实体类属性名不一致问题九、映射文件中对实体类起别名简化主配置文件中注册映射文件十、两表联查多对一一对多十一、分页插件PageHelper一、什么是mybatismybatis是apache组织下的一个开源框架。以前叫ibatismybatis是一个持久层的框架解决了orm的问题。可以简化jdbc

2021-08-22 15:20:12 545

原创 Flink: 窗口计算

文章目录Event-time WindowEvent TimeWatermark-水位线迟到数据Event-time WindowEvent TimeFlink在流计算的过程中，支持多种时间概念。Event Time / Processing Time / Ingestion TimeProcessing Time：处理时间是指执行相应操作的机器的系统时间。Event Time：事件时间是每个事件在其生产设备上发生的时间。处理乱序数据（数据的处理和数据的生成顺序乱啦）Ingestion：摄取

2021-08-19 20:19:36 712

原创 Flink：窗口

文章目录窗口计算概述整体的程序结构窗口的切分Tumbling Windows：滚动窗口Sliding Windows：滑动窗口Session Windows：会话窗口Global Window：全局窗口窗口代码-窗口分配器TumblingWindowsAssignerSlidingWindowsAssignerSessionWindowsAssignerGlobalWindowAssigner窗口代码-窗口计算函数reduceFunctionprocessWindowFunction既要高效计算又要元数据信

2021-08-18 21:31:38 705

原创 Flink(二)：DataStream API及状态管理

文章目录Stream(DataStream API)DataSource:数据源File-basedSocket-basedRead from Apache Kafka算子datasink：数据输出Stream(DataStream API)参考：https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/datastream_api.htmlDataSource:数据源File-based读取分布式文件系统HDFS添加

2021-08-16 23:18:22 581

原创 Flink（一）：部署及运行架构

文章目录Flink简介前言什么是 FlinkSpark 对比 FlinkFlink应用场景环境安装快速入门编程模型代码程序部署Flink运行架构Tasks and Operator ChainsJob Managers, Task Managers, ClientsTask Slots and Resources(难点)State BackendsCheckpoint/SavepointsFlink简介前言2006年2月诞生的Hadoop中的MapReduce，2014年9月份诞生的Storm以

2021-08-15 23:31:20 897

原创 Flink安装

Flink安装1. 准备工作JDK安装完成（保证JDK版本：1.8+）Hadoop安装完成并且可以正常运行2. Flink安装1. Flink官网下载安装包链接: https://flink.apache.org/downloads.html.2. 把安装包传输到Linux系统中的/opt/install目录下3. 通过tar -zxvf命令完成解压tar -zxvf flink-1.10.0-bin-scala_2.11.tgzflink的目录结构[root@flin

2021-08-15 22:36:17 478

原创 Linux软件安装

2021-08-15 15:06:20 174

原创 hdfs进入安全模式，解除后启动namenode都会做什么事？

NameNode启动，加载最新的fsimage恢复数据，并加载未合并的editslog_inprogress，进一步恢复数据。— NN管理内存数据完整。等待接受DataNode的心跳 HeartBeatDN的本节点地址健康状态磁盘容量剩余容量版本号。等待接受DataNode的块报告 Block Report，判断是否满足最小副本因子(默认值1 dfs.namenode.replication.min)，达到了，则认为当前Block是安全的，完整的。DN的本节点的内全部Block的信息: .

2021-08-13 01:00:36 208

原创闭包&柯里化

一个函数把外部的那些不属于自己的对象也包含(闭合)进来。通俗的来说就是局部变量当全局变量来使用！！！也就是一个函数的返回值也是一个函数柯里化定义：柯里化指的是将原来接受两个参数的函数变成新的接受一个参数的函数的过程。新的函数返回一个以原有的第二个参数作为参数的函数...

2021-08-12 23:59:50 252

原创隐式转换、

隐式转换函数是以implicit关键字声明的带有单个参数的函数。这种函数将会自动应用，将值从一种类型转换为另一种类型。应用场景在scala语言中，隐式转换一般用于类型的隐式调用，亦或者是某个方法内的局部变量，想要让另一个方法进行直接调用，那么需要导入implicit关键字，进行隐式的转换操作，同时，在Spark Sql中，这种隐式转换大量的应用到了我们的DSL风格语法中，并且在Spark2.0版本以后，DataSet里面如果进行转换RDD或者DF的时候，那么都需要导入必要的隐式转换操作。...

2021-08-12 23:59:06 181

原创伴生对象、

如果类和object在一个scala文件中，则称为object User 是class User的伴生对象class User{ }//Scala中伴生对象采用object关键字声明，伴生对象中的全是”静态“内容，可以通过伴生对象名称直接调用//伴生对象对应的类称之为伴生类，伴生对象的名称应该和伴生类名一致//伴生对象中的属性和方法都可以伴生对象(类名)直接调用访问//从语法角度来讲，所谓的伴生对象其实就是类的静态方法和成员的集合object User{ //伴生对象 }

2021-08-12 23:57:30 212

原创高阶函数（列举）

scala自带高阶函数概述：可以接收一个函数的函数就是高阶函数1.map介绍：将集合中的每一个元素通过指定功能(函数)映射(转换)成新的结果集map就是将list集合中的每个元素拿出来，然后根据你自己提供的算法去计算处理，然后返回你需要的数据，可以是数组、集合、元组等2.flatten介绍：flat即压扁，压平，扁平化。效果就是将集合中的每个元素的子元素映射到某个函数并返回新的集合flatten是将list中的多个集合进行元素合并（必须都是集合）集合中的元素必须是同一类型的数据3.flat

2021-08-12 23:55:52 221

转载 Spark Shuffle 机制

说明:Spark是目前大数据中非常流行的运算框架,Spark的Shuffle机制是完成运算最重要的一环,面试时经常会被问到. 在Spark中，Shuffle分为map阶段和reduce阶段，也可称之为shuffle write和shuffle read阶段，Spark在1.1以前的版本一直是采用Hash Shuffle的实现的方式，到1.1版本时参考Hadoop MapReduce的实现开始引入Sort Shuf...

2021-08-12 22:58:20 413

原创 Spark Streaming

文章目录一、Spark Streaming概述二、DStream入门开发步骤1. 添加依赖2. 编写代码3. kafka当数据源配置三、DStream的无状态和有状态转化1、无状态转化2、有状态转化操作四、DStream输出方法一、Spark Streaming概述Spark Streaming称之为微批处理，无状态计算.Discretized Stream(简称：DStream)是Spark Streaming的基础抽象，代表持续性的数据流和经过各种Spark原语操作后的结果数据流。在内部实现上

2021-08-12 22:46:56 232

原创 Spark面试总结（1）

1.spark中的RDDRDD（Resilient Distributed Dataset）叫做分布式数据集，是spark中最基本的数据抽象，它代表一个不可变，可分区，里面的元素可以并行计算的集合RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后，就可以调用actions触发RDD的计算，action可以是向应用程序返回结果(count, collect等)，或者是向存储系统保存数据(saveAsTextFile等)。在Spark中，只有

2021-08-11 23:32:59 659

原创 RDD 算子

对RDD操作，可以通过spark提供的算子完成在spark提供的对RDD操作的算子中，分成了两类：**转换算子(transfermation): ** 从-一个RDD,经过算子处理转换成另外一个RDD。行动算子(Action): 从一个RDD，经过算子处理，会生成一个scala对象。转换算子是懒加载模式，只有遇到了行动算子，转换算子才会真正执行RDD转换（Transformations）算子转换算子(transfermation) 分成了两部分:1.对值（value）进行操作的算子2.对

2021-08-11 21:39:33 1547

原创 Spark RDD特点

RDD: resilient distributed dataset弹性分布式数据集*就是一个数据集合*分布式的: rdd执行并行计算*弹性:通过算子可以完成对RDD的转换处理RDD的特点1.不可变: RDD一旦生成，就不会再改变;根据需要可以做转换生成新的RDD2分区: RDD是并行计算。rdd本身自带的有分区计算的时候会通过一个compute函数得到每个分区的数据。如果RDD是通过已有的文件系统构建，则compute函数是读取指定文件系统中的数据，如果RDD是通过其他RDD转换而来，则c

2021-08-11 21:37:10 2128

原创 Driver和Executor及架构

Driver（驱动器）：用来创建SparkContext、创建RDD，执行开发程序中的main方法的进程，以及进行RDD的转换和执行。主要负责：1）把用户程序转为job2）跟踪Executor的运行状况3）为执行器(Executor)节点调度任务(task)4）UI展示应用运行状况Executor(执行器)：主要负责行动任务（互相独立），伴随着Spark启动而启动。若发生Excutor故障，Spark 应用也可以继续执行，会将出错节点上的任务调度到其他Executor节点上继续运行

2021-08-11 21:34:48 687

原创 CoreJava笔记

文章目录chap01-Java入门学习方法JavaJava发展史Java的优势（特点）Java的运行机制环境搭建第一个Java代码基础语法公开类Package编码规范书写规范标识符命名规范注释chap02-数据类型与运算符变量数据类型基本数据类型引用数据类型数据类型转换自动类型提升运算符表达式运算符扫描器import学习方法chap03-流程控制选择结构基本if选择结构if else选择结构多重if选择结构嵌套if选择结构分支结构局部变量循环结构while循环do while循环for循环总结流程控制循环嵌

2021-08-10 23:45:30 1277 2

原创 Spark SQL

文章目录一、概述搭建环境windows安装Scala二、使用步骤1.引入库2.读入数据总结一、概述1.Scala是一门多范式的静态类型编程语言,Scala支持面向对象和函数式编程2.Scala源代码(.scala)会被编译成java字节码(.class)，然后运行在JVM之上，并可以调用现有的Java类库，实现两种语言的无缝对接搭建环境windows安装Scala前提要求：安装JDK1.8，并且配置环境变量在c盘下创建一个scala文件夹双击scala-2.11.12.msi安装包

2021-08-10 23:26:23 1504 2

原创 Spark RDD

一、Spark RDD概述Resilient Distributed Datasethttp://spark.apache.org/docs/latest/rdd-programming-guide.html二、 RDD编程1、编程模型在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后，就可以调用actions触发RDD的计算，action可以是向应用程序返回结果(count, collect等)，或者是向存储系统

2021-08-08 23:09:12 579 2

原创 Spark基础篇

文章目录Spark的介绍1、Spark定义2、Spark VS MapReduce3、Spark内置模块二、安装Spark1. Spark相关地址1．官网地址2．文档查看地址3．下载地址2. 重要角色2.1 Driver(驱动器)2.2 Executor(执行器)3. Standalone模式spark两种测试方式:4. JobHistoryServer配置1. 修改spark-default.conf.template名称, 修改spark-default.conf文件，开启Log2. 修改spark-e

2021-08-08 18:07:26 505 1

原创 Tez工具

Tez一、tez简介用Hive直接编写MR程序，假设有四个有依赖关系的MR作业，上图中，绿色是Reduce Task，云状表示写屏蔽，需要将中间结果持久化写到HDFS。Tez可以将多个有依赖的作业转换为一个作业，这样只需写一次HDFS，且中间节点较少，从而大大提升作业的计算性能。二、tez安装1.解压[root@hadoop10 modules]# tar -zxf apache-tez-0.9.1-bin.tar.gz -C /opt/installs/2.重命名[root@hadoop

2021-07-29 22:33:46 236

原创 shell

一、简介Shell 脚本（shell script），用 C 语言编写的程序，是为 shell 编写的脚本程序。业界所说的 shell 通常都是指 shell 脚本，shell 和 shell script 是两个不同的概念。二、入门1.脚本格式脚本以 #!/bin/bash 开头（指定解析器）2.第一个shell脚本: helloworld[root@hadoop11 data]# touch helloworld.sh[root@hadoop11 data]# vi hellowor

2021-07-26 22:34:16 121

空空如也

空空如也