橙子园-CSDN博客

原创 flink实战：flink自定义sink，以入solr、mongodb为例

自定义sink需要继承 RichSinkFunction，重写open、invoke、close三个方法，open方法主要实现一些公共资源的开启工作，如mongo、solr的连接客户端。invoke会在每条数据进入后调用，主要写一些数据的转化、插入、查询等具体的实际业务。这个查询了mongo中的数据，转化长对应的javaBean，更新了传入的javaBean以后，转化成document，存入mongodb。下面我给大家两个实例，一个是sink solr的，一个是sink mongo的。

2022-12-29 11:52:49 1738 1

原创 windows计划任务所遇到的闪退、触发器没有按时执行的坑

3、这里还有一个需要根据需求设置的选项，默认是请勿启动新实例，这里意味者如果这个任务有运行，没有运行完成，是不会启动这个任务的程序的，这就会导致触发器在本应该触发的时间就不触发了。6、关于整点每隔一小时执行一次触发器的设置，不想重新截图了，使用上一张，这里我们开始设置了0:00:00,这样我们设置对了，不过我们等不到下次执行，要等到第二天的0:00:00触发了以后才会按照整点每隔一小时执行。2、下面是每隔一小时执行一次的设置，一定要注意点选红框的已启用，不然不会出发一小时执行一次。

2022-12-14 17:42:22 9056 1

原创 pymongodb 的update_one、replace_one的参数

这样写，会查出如果存在就更新，如果不存在就插入。可以实现不改变list原来的元素的情况下添加。这样写，但必须查到才能更新,自做更新。

2022-10-08 18:09:42 2281

原创重学scala十：scala中的泛型

scala和Java一样，类和特质、方法都可以支持泛型。我们在学习集合的时候，一般都会涉及到泛型。定义一个Pair类包含2个类型不固定的泛型。在scala中，使用方括号来定义类型参数。1、定义一个泛型方法。

2022-09-26 21:25:26 684

原创重学scala九：scala中的提取器

提取器是从传递给它的对象中提取出构造该对象的参数。(回想样例类进行模式匹配提取参数)scala 提取器是一个带有unapply方法的对象。unapply接受一个对象，然后从对象中提取值，提取的值通常是用来构造该对象的值。

2022-09-08 16:03:55 713 1

原创重学scala八：scala中的异常处理

在scala中，可以使用异常处理来解决这个问题。在Scala里，借用了模式匹配的思想来做异常的匹配以下为scala中try…try中的代码是我们编写的业务处理代码在catch中表示当出现某个异常时，需要执行的代码在finally中，是不管是否出现异常都会执行的代码。执行程序，可以看到scala抛出了异常，而且没有打印出来"你好"。说明程序出现错误后就终止了。那怎么解决该问题呢？我们也可以在一个方法中，抛出异常。语法格式和Java类似，使用throw new Exception…

2022-09-08 15:59:29 1501

原创重学scala七：scala中的模式匹配和样例类

scala有一个十分强大的模式匹配机制，可以应用到很多场合。java switch caseswitch语句类型查询以及快速获取数据并且scala还提供了样例类，对模式匹配进行了优化，可以快速进行匹配。

2022-09-08 15:02:50 591 2

原创单机版redis的安装

在该模式下，redis会在后台运行，并将进程pid号写入至redis.conf选项pidfile设置的文件中，此时redis将一直运行，除非手动kill该进程。daemonize:no：当daemonize选项设置成no时，当前界面将进入redis的命令行界面，exit强制退出或者关闭连接工具(putty,xshell等)都会导致redis进程退出。需要注意的是scl命令启用只是临时的，退出shell或重启就会恢复原系统gcc版本。执行以下命令修改redis配置文件。执行以下命令进行解压redis。...

2022-08-29 17:28:41 1040

原创报错：Internal error XFS_WANT_CORRUPTED_GOTO at line 1635 of file fs/xfs/libxfs/xfs_alloc.c.

下面为解决问题中报的错误：Internal error XFS_WANT_CORRUPTED_GOTO at line 1635 of file fs/xfs/libxfs/xfs_alloc.c. Caller xfs_free_extentInternal error xfs_trans_cancel at line 990 of flie fs/xfs/xfs_trans.c.xfs_repair: /dev/mapper/cl-root contains a mounted filesystem

2022-06-30 11:31:24 6032 6

原创报错FileSystemException: /datas/nodes/0/indices/gtTXk-hnTgKhAcm-8n60Jw/1/index/.es_temp_file:结构需要清理

首先我碰到的问题是服务器突然断电导致elasticsearch宕机，当我再次启动的时候到对应的目录中查看，ls查看文件时报所以判断肯定是由于断电导致分区数据损毁，丢失了文件的信息。所以需要修复分区，并重新挂载到目录上。查看磁盘挂载可看到文件所在的目录挂载的分区是/dev/sdc,这就是我们需要修复的。先将已经挂载好的分区卸载下来然后修复修复好以后重启服务器、或者重新挂载，当然要看你挂载的分区持久化写入/etc/fstab中，如果写了，则重启服务器就会重新将分区挂载到目录下。重启命令根据上述操作，我

2022-06-29 10:04:47 1705 14

原创 Prometheus+Grafana安装配置并配置linux服务器监控dashboard

prometheus是谷歌用golang语言开发的一款开源的监控软件，使用安装在远程机器上的exporter，通过HTTP协议从远程的机器收集数据并存储在本地的时序数据库上。Prometheus为了支持各种中间件以及第三方的监控提供了exporter，大家可以把它理解成监控适配器，将不同指标类型和格式的数据统一转化为Prometheus能够识别的指标类型。例如Node exporter主要通过读取Linux的/proc、/sys目录下的系统文件获取操作系统运行状态，redis exporter通过Reids

2022-06-18 23:51:07 3003 9

原创 centos7服务启动不了的排查思路

首先我们在/usr/lib/systemd/system目录下创建一个服务文件，写下服务启动任务配置。下面我以prometheus的node_exporter为例写如下配置然后重新加载服务然后开启此服务再查看服务开启状态从上图可以看出失败了，我去为什么呢赶紧查看日志吧查看对应node_exporter.service服务的日志翻到最后可以看到报错日志为可以判断了是参数端口号解析不出来，由于多了"“,所以去掉”",改为下面的配置。再次加载服务文件，并开启服务查看服务开启状态：从上面的排查示

2022-06-17 10:34:11 4289 11

原创 flink报错踩坑：org.apache.flink.table.catalog.hive.client.HiveShimV100.registerTemporaryFunction

当想使用本地开发环境运行flink读写线上hive数据来运行时报错。我使用maven管理的开发环境依赖。由于代码发布到测试环境集群上跑时并没有报错，而测试环境对应的依赖都是使用放在上面的依赖jar的，并不使用本地maven管理的依赖（也就是没有打入项目jar）。所以我猜测是本地运行环境依赖有问题，也就是项目中maven的pom文件的依赖有问题。在多次检查该项目中maven的pom文件导入的依赖和反复查看flink Table API Connector针对hive的官方文档后终于解决了问题。下面是我处理问题

2022-06-11 15:34:55 2981 11

原创报错：Could not find a suitable table factory for ‘org.apache.flink.table.factories.TableSourceFactory

重要错误提示：这是在提交yarn时报的错误，原因其实就是少了一些包，提交的集群后一些依赖包使用flink的lib目录下的，所以我需要将一些依赖包放到lib目录下。我们看到缺少的是org.apache.flink.table.factories.TableSourceFactory类，所以对应的应该是flink连接JDBC的包。这里我们去官网上下载你对应flink版本的连接JDBC的包，如下图：放到提交集群的客户机部署的flink的lib目录下。可以看到上面最主要的是缺少依赖包，其实像很多类似的错误都是由于

2022-06-08 18:01:54 5446 6

原创重学scala：scala中的隐式转换和隐式参数

Scala提供的隐式转换和隐式参数功能，是非常有特色的功能。是Java等编程语言所没有的功能。它可以允许你手动指定将某种类型的对象转换成其他类型的对象，或是给一个类增加方法。通过这些功能，可以实现非常强大的功能。隐式转换其核心就是定义一个使用 implicit 关键字修饰的方法，实现把一个原始类转换成目标类，这样你可以调用目标类中的方法，是不是很强大。隐式转换的方法需要定义在一个object中。示例二：对自己定义的类使用隐式转换，普通人成为大佬结果：结果：它是指在函数或者方法中，定义一个用imp

2022-06-07 09:48:33 695 8

原创重学scala：scala函数式编程与高阶函数

谈到编程方式有指令式编程、过程化编程、函数式编程，函数式编程在使用时主要的思想就是把运算过程写成一些列嵌套的函数调用。把一组数据通过函数实现运算转化成另一组数据。函数式编程这种方式在我们将来开发Spark、Flink的业务代码时会大量使用。下面列出了一些我们经常使用的进行函数式编程的Iterable trait（可迭代特质）方法。接口描述foreachAPI说明参数f: (A) ⇒ Unit接收一个函数对象，函数的输入参数为集合的元素，返回值为空返回值Unit空方

2022-06-05 19:39:18 1211 14

原创 flink-sql入es报错：Missing required options are document-type

我是在flink-sql创建es表的时候报的错，报错提示缺少对应的options，及document-type，我连忙去flink官方文档查找答案：https://nightlies.apache.org/flink/flink-docs-release-1.13/docs/connectors/table/elasticsearch/#document-type从官方文档给出的连接参数可以看出document-type在es6中需要指定，而在es7中无需指定，原因大概是6.0版本及以前一个索引里可以创建

2022-06-02 18:23:40 2334 7

原创重学scala：scala中的数据结构

注意：下面的例子均在scala shell中演示的一、数据结构介绍对于Scala来说，同时支持可变集合和不可变集合，不可变集合一直都不会发生变化，可以安全的并发访问。Scala优先采用不可变集合，同时几乎所有的集合类，Scala都同时提供了可变和不可变的版本。下面是两个主要的包：不可变集合：scala.collection.immutable、可变集合： scala.collection.mutable。不可变集合继承层次：可变集合继承层次：二、实操1、数组可以用数组来存放一组数据。s

2022-05-29 16:23:13 1277

原创重学scala：scala中的变量、方法、函数

文章目录简介1、 scala中声明变量2、惰性变量3、基本数据类型4、scala类型层次结构5、scala中的条件表达式6、scala方法的重载7、scala中的块表达式8、循环1、for循环2、while循环9、方法和函数1、方法2、函数3、方法和函数的区别4、方法转换为函数提示：代码实例重点在于讲解知识点上，代码相对简单，所以都是使用scala shell来直接操作的简介Scala是一门多范式的编程语言，一种类似java的编程语言，是可扩展语言，并集成面向对象编程和函数式编程的各种特性的混合功能编

2022-05-27 09:49:20 2091 11

原创一文解决安装Anaconda后C盘不断增加的问题、修改默认配置

这个问题主要原因是由于Anaconda默认安装虚拟环境以及pkg在c盘的问题，有些同学在安装Anacoda时明明选择了其他安装路径，但是C盘还是不断在增加。下面我们来解决，这里其实有两种解决方式一种是通过添加dir来替换默认路径、一种是直接配置c盘路径下的.condarc文件,请记住这两种方法一定是再安装anaconda时选择的是Just Me，如果你选择的是All User，改了也不会生效第一种方法首先使用下面命令查看conda的配置conda config --show如上图，我们可以看

2022-05-21 17:56:24 31450 27

原创重学scala：scala面向对象编程之trait特质

简介特质就像是java的implement，是scala中代码复用的基础单元，它可以将方法和字段定义封装起来，然后添加到类中与类继承不一样的是，类继承要求每个类都只能继承一个超类，而一个类可以添加任意数量的特质。特质的定义和抽象类的定义很像，但它是使用trait关键字1、作为接口使用使用extends来继承trait（scala不论是类还是特质，都是使用extends关键字）如果要继承多个trait，则使用with关键字trait B {...}trait C {...}class Dclas

2022-05-19 11:54:39 978 4

原创重学scala：scala面向对象编程之继承

三、scala面向对象编程之继承1、继承extendsscala使用extends关键字来实现继承。可以在子类中定义父类中没有的字段和方法，或者重写父类的方法。示例1：实现简单继承class Person1 { var name = "super" def getName: String = this.name}class Student1 extends Person1object Main1 { def main(args: Array[String]): Unit =

2022-05-18 15:13:32 1771 7

原创重学scala：scala面向对象编程之类与对象

文章目录一、类1、类的定义2、类的构造器二、对象1、scala中的object2、scala中的伴生对象3、scala中object的apply方法4、scala中object的main方法一、类1、类的定义scala是支持面向对象的，也有类和对象的概念。示例：定义一个User类，并添加成员变量/成员方法，创建一个Main object，添加一个main方法，并创建Customer类的对象，并给对象赋值，打印对象中的成员，调用成员方法class User { var name:String =

2022-05-11 18:18:21 1297 20

原创搭建大数据集群linux服务器配置步骤

1、IP设置使用下面命令修改添加示例内容命令：vi /etc/sysconfig/network-scripts/ifcfg-ensXX修改添加的内容示例：BOOTPROTO=staticIPADDR=192.168.1.100NETMASK=255.255.255.0GATEWAY=192.168.1.1DNS1=8.8.8.8# 设置开机启动网卡ONBOOT=yes重启网络服务service network restart2、关闭防火墙在root用户下执行以下命令关

2022-05-09 22:38:41 1970 16

原创报错：Cannot set the value of read-only property ‘additionalSourceDirs‘ for task ‘:jacocoRootReport‘ of

完整报错：Build file ‘F:\mycode\kafka-0.10.1.0-src\build.gradle’ line: 297A problem occurred evaluating root project ‘kafka-0.10.1.0-src’.Cannot set the value of read-only property ‘additionalSourceDirs’ for task ‘:jacocoRootReport’ of type org.gradle.testi

2022-04-28 11:35:52 2793 6

原创【大数据】带你理解并使用flink中的WaterMark机制

flink 中watermark的window的使用、原理、易错点，新旧api的使用全部内容

2022-04-19 15:17:21 3233 40

原创【大数据】带你理解并使用flink中的Time、Window（窗口）、Windows Function（窗口函数）

这篇文章带你理清大数据开发中flink中time、window使用概念、实战的内容，欢迎大家品读，同时示例代码也是基于最新的flink1.13开发。

2022-04-14 09:49:26 4061 33

原创【大数据】带你理解flink的state概念

文章目录一、概述1、简介2、 State backend2.1、MemoryStateBackend2.2、FsStatebackend：2.3、 RocksDBStateBackend二、state的类型1、原生状态(raw state)2、托管状态(managed state)3、两种形式3.1 Operator State(算子状态)3.2 keyed State(键控状态)3.2.1、ValueState3.2.2、ListState3.2.3、MapState3.2.4、ReducingState

2022-04-12 11:30:06 1756 27

原创【大数据】一文带你了解并使用阿里的增量日志解析工具canal

一、简介canal [kə’næl]，译意为水道/管道/沟渠，主要用途是基于 MySQL 数据库增量日志解析，提供增量数据订阅和消费早期阿里巴巴因为杭州和美国双机房部署，存在跨机房同步的业务需求，实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始，业务逐步尝试数据库日志解析获取增量变更进行同步，由此衍生出了大量的数据库增量订阅和消费业务。基于日志增量订阅和消费的业务包括数据库镜像数据库实时备份索引构建和实时维护(拆分异构索引、倒排索引等)业务 cache 刷新带业务逻

2022-04-06 18:42:51 3453 3

原创 linux安装zookeeper集群保姆教程，包括集群启停脚本

三台机器安装zookeeper集群注意事项：安装前三台机器一定要保证时钟同步说明：我这里是有3台服务器，分别hostname为node01、node02、node03。三台机器已经配置好了ssh。zookeeper使用的是cdh5的zookeeper包，没有使用原生zookeeper项目的包。三台机器已经进行了时钟同步。下载zookeeeper的压缩包，下载网址如下：http://archive.cloudera.com/cdh5/cdh/5/我下载的版本为：zookeeper-3.4.

2022-04-03 17:18:56 3949 2

原创【大数据】flink保证Exactly_Once的理解

满足三点，可以保证端到端的Exactly_Once1.开启checkpoint2.source支持数据重发3.sink端幂等性写入、事务性写入。我们常使用事务性写入sink 事务性写入分为两种方式1、WAL（预写日志的方式）：先将数据当作状态保存，当收到checkpoint完成通知后，一次性sink到下游系统2、2pc（两阶段提交）：大致的实现的过程就是：* 开始事务（beginTransaction）创建一个临时文件夹，来写把数据写入到这个文件夹里面。* 预提交（preCommit）将内存

2022-04-03 11:39:20 4155 13

原创报错：Failed to execute goal org.scala-tools:maven-scala-plugin:2.15.2:compile(default) on Project Data

这个错误主要是由于pom中指定的scala版本高于window 安装的scala版本的原因照成的举个例子：本地win里Scala版本是2.11.12 ， IDEA里pom指定的Scala版本是2.10.6 ，是可以的本地win里Scala版本是2.11.12，IDEA里pom指定的Scala版本是2.11.12，是可以的本地win里Scala版本是2.10.6， IDEA里pom指定的Scala版本是2.11.12，不可以所以windows 安装的scala版本一定要比pom指定的版本要高，这样才

2022-03-31 17:56:35 4138

原创 flink问题集锦

报错一：Could not get job jar and dependencies from JAR file: JAR file does not exist: -yn原因：flink1.8版本之后已弃用该参数，ResourceManager将自动启动所需的尽可能多的容器，以满足作业请求的并行性。解决方法：去掉即可报错二：java.lang.IllegalStateException: No Executor found. Please make sure to export the HA

2022-03-18 18:27:27 4363

原创【大数据】关于hive中删除操作及HDFS回收站管理腾出空间的实操

一、删除删除hive数据时，首先明确你使用删除数据还是连同表结构也要删除，如果只是要删除数据可以选择truncate来清空表中的数据，如果要对表进行删除，首先要考虑该表是内部表还是外部表。如果是外部表要确认数据是否还需要使用，如果不需要使用了可以直接使用HDFS命令对目录进行删除。查询内、外部表有两个方法：方法一：hive shell中执行describe extended tablename; 查看表的详细信息，外部表 tableType 字段会显示 EXTERNAL_TABLE，内部表 t

2022-02-17 10:11:38 7775

原创【大数据】Hive可视化工具dbeaver

Hive可视化工具dbeaver1、dbeaver基本介绍dbeaver是一个图形化的界面工具，专门用于与各种数据库的集成，通过dbeaver我们可以与各种数据库进行集成通过图形化界面的方式来操作我们的数据库与数据库表，类似于我们的sqlyog或者navicat。2、下载dbeaver我们可以直接从github上面或者官网下载我们需要的对应的安装包即可https://github.com/dbeaver/dbeaver/releaseshttps://dbeaver.io/download/3

2022-02-05 12:15:49 21011 4

原创【大数据】OLAP架构及技术实现的演进简介

文章目录一、架构分类二、技术演进1、传统关系型数据库时期2、大数据技术时期一、架构分类OLAP名为联机分析，又称多维分析，什么是多维分析，指的是多种不同的维度审视数据，进行深层次分析。进行分析必不可少对数据进行下钻、上卷、切片、切块、旋转等操作，为了更加直观，我们可以使用立方体来表示。下钻：从高层次向低层次明细数据穿透。例如从“省”下钻到“市”，从“浙江省”穿透到“杭州市”和“台州市”。上卷：和下钻相反，从低层次向高层次聚合。例如从“市”汇聚成“省”，将“杭州市”、“台州市”聚合成“湖北

2022-02-03 23:37:00 5971 13

转载互联网常用衡量服务性能的指标：QPS、TPS、并发用户数、吞吐量等定义

文章目录QPSTPSQPS和TPS区别并发数吐吞量系统吞吐量要素重要参数关系PVUVDAU系统吞吐量评估通常的技术方法：软件性能测试的基本概念和计算公式QPSQPS （Queries Per Second）是每秒查询率 ,是一台服务器每秒能够相应的查询次数，是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准, 即每秒的响应请求数，也即是最大吞吐能力。TPSTPS Transactions Per Second 也就是事务数/秒。一个事务是指一个客户机向服务器发送请求然后服务器做出反应

2022-01-30 23:15:07 4335 4

原创【加强锻炼篇】如何进行科学有效的健身锻炼

现在很多人都参与到健身锻炼的队伍中，但是其效果往往不十分的理想，特别是由于缺乏基本的健身锻炼知识，不但没有达到锻炼效果，反而还给身体带来伤害。在很多年轻人的心目中，运动就是打球、跑步，然后满身大汗，气喘吁吁。在老年人的心目中，运就是从家中走出来在外面遛弯。然而，这样的运动方法到底有没有效果，而且适合自己呢?一、什么是合适的运动量运动量是运动锻炼效果的关键指标。合适的运动量的标志是：运动后的次日早晨起床时感觉舒适，无疲劳感。每周的运动总量应相当于步行 1O一20km。判断自

2022-01-29 10:43:56 2430 3

原创【ELK系列四】肝了两晚，你想要的elasticsearch内容放在这了

文章目录ES的核心概念及使用一、概述二、Elasticsearch核心概念索引 index类型 type映射 mapping文档 document字段Field接近实时 NRT集群 cluster节点 node分片和复制 shards&replicas三、Elasticsearch操作1、使用XPUT创建索引2、插入文档3、查询文档4、更新文档5、搜索文档6、删除文档7、删除索引8、条件查询8.1 使用match_all做查询8.2 关键字段进行查询8.3 bool的复合查询8.4 term、ter

2022-01-28 16:17:22 5424 19

原创【大数据】HBase分布式数据库架构及原理

一、HBase的整体架构1、Client客户端Client是操作HBase集群的入口，对于管理类的操作，如表的增、删、改操纵，Client通过RPC与HMaster通信完成，对于表数据的读写操作，Client通过RPC与RegionServer交互，读写数据。Client类型：HBase shellJava编程接口Thrift、Avro、Rest等等2、ZooKeeper集群作用：1、实现了HMaster的高可用，多HMaster间进行主备选举2、保存了HBase的元数据信息meta

2022-01-27 23:16:27 2526 4

ELK日志系统整套安装资源

后端+文件系统+fastDFS+springBoot

canal-阿里增量日志解析组件-1.1.5

flink-connector-kafka1.13.6

机器学习面试题(3).docx

空空如也