问题不太大-CSDN博客

原创线上flink任务重启报错(Hadoop问题)java.lang.NumberFormatException: For input string: “30s“

线上Flink任务重启时，提交任务失败，具体报错如下：2021-12-31 18:09:19java.lang.NumberFormatException: For input string: "30s" at java.lang.NumberFormatException.forInputString(NumberFormatException.java:65) at java.lang.Long.parseLong(Long.java:589) at java.lang.Long.parseL

2022-01-04 14:30:31 3787 1

原创 Iceberg 合并小文件并删除历史(Flink)

Iceberg 合并小文件并删除历史(Flink)Iceberg每一次操作都会产生多个数据文件(metadata、data、snapshot)，需要自行合并清理。详细Iceberg写入时文件变化请参考官网https://iceberg.apache.org/建表时新增with配置# iceberg使用代码合并小文件后如果不开启此配置，历史文件同样不会删除，开启后就会实现合并后清除历史文件(历史文件保留最大值为5，metadata和data里面文件数则始终保持为6个) # 启用提交后写入元数据

2021-10-14 17:53:45 37876

原创 flink1.12 提交Job 时 Exception in thread “main“ java.lang.NoSuchMethodError: org.apache.commons.cli.Opt

flink1.12 提交Job 时 Exception in thread “main” java.lang.NoSuchMethodError: org.apache.commons.cli.Option.builder(Ljava/lang/String;)Lorg/apache/commons/cli/Option$Builder;完整报错信息：Exception in thread “main” java.lang.NoSuchMethodError: org.apache.commons.c

2021-10-14 17:35:01 36700

原创 org.apache.iceberg.hive.HiveTableOperations$WaitingForLockException: Waiting for lock.

报错信息org.apache.iceberg.hive.HiveTableOperations$WaitingForLockException: Waiting for lock. at org.apache.iceberg.hive.HiveTableOperations.lambda$acquireLock$9(HiveTableOperations.java:444) ~[dw-0.1.jar:?] at org.apache.iceberg.util.Tasks$Builder.runTask

2021-09-28 18:05:45 35785 2

原创 Apache Atlas 安装

Atlas 安装安装Solr(单节点)kafka安装安装Maven并配置MAVEN_HOME下载Atlas源码文件并编译(独立Hbase、Solr)配置Atlas配置Hive Hook安装Solr(单节点)下载地址：https://solr.apache.org/downloads.html解压后直接启动bin/solr start -c -z <zookeeper_host:port> -p 8983kafka安装kafka安装连接安装Maven并配置MAVEN_

2021-08-13 18:08:41 39780

原创 Hive HBase 集成

Hive HBase集成Avro 数据存储在 HBase 列中介绍用法列映射多个列和列簇Hive MAP 到 HBase 列族Hive MAP 到 HBase 列前缀隐藏列前缀非法：Hive 原语到 HBase 列族二进制列示例简单的复合行键(As of Hive 0.13.0)复杂的复合行键和 HBaseKeyFactoryAvro 数据存储在 HBase 列中(As of Hive 0.14.0)Avro 数据存储在 HBase 列中版本信息：Avro 数据存储在 HBase 列中从 Hive

2021-07-13 15:17:44 43184 1

原创基于腾讯云EMR的Flink1.10 Catalog 集成 Hive2.3.7 大坑

基于腾讯云EMR的Flink1.10 Catalog 集成 Hive2.3.7 大坑正常Flink集成Hive**`但是问题来了：`**解决方案正常Flink集成Hive普通版本Flink Catalog集成Hive的元数据时根据Flink官网一步一步来是没有问题的。官网给了Hive各个版本集成时应该去拷贝哪些jar包这些都是正常的操作流程，然后还要sql-client的配置方式也有说明。看到这里可以说是照着官网有手就能干，保姆式服务，下面官方还给出了Flink的Catalog对Hive的支

2021-06-08 17:02:49 44380

原创 Flume集成logback将日志写入HDFS

Flume集成logback将日志写入HDFSFlume 配置文件(Kafka代替Flume Channel)Spring Boot + logback集成Flume测试Flume 配置文件(Kafka代替Flume Channel)flume-test-conf.properties# 组件命名a1.sources = r1a1.sinks = k1a1.channels = c1# sourcea1.sources.r1.type=avroa1.sources.r1.bind=0

2021-06-03 15:57:54 44761 1

Flink DataStream API

Flink DataStream API 编程指南概览前言什么是DataStreamFlink程序剖析程序样例Data SourcesDataStream Transformations算子数据流转换算子物理分区算子链和资源组Data Sinks迭代执行参数概览前言Flink中的DataStream程序是常规程序，可对数据流进行转换（例如，过滤，更新状态，定义窗口，聚合）。数据流最初是从各种来源（例如消息队列，套接字流，文件）创建的。结果通过接收器返回，接收器可以例如将数据写入文件或标准输出（例如命令

2021-05-26 18:23:58 44617

原创使用Docker搭建WordPress私人博客

使用Docker搭建WordPress私人博客云服务器和域名配置服务器安装Docker使用Docker搭建WordPress拉取镜像生成并配置容器配置WordPress云服务器和域名使用WordPress搭建个人博客会产生一些费用，而费用来源就是服务器的租赁和域名的租赁，这里选择任何厂商的服务器都可以，买了服务器和域名之后，把服务器公网IP和域名关联起来，并对域名做好备案。配置服务器安装Docker安装dockeryum -y install docker docker-compose

2021-03-03 16:08:25 45007

原创局域网搭建Maven私服并批量上传依赖库

局域网搭建Maven私服并批量上传依赖库使用Nexus3搭建Maven私服Nexus3下载启动Nexus3服务创建私有仓库上传本地仓库至私服验证仓库是否上传成功单个jar包上传项目使用私服settings文件配置使用Nexus3搭建Maven私服Nexus3下载百度网盘地址：密码:zktp启动Nexus3服务解压Nexustar -zxvf nexus-3.29.2-02-unix.tar.gz -C ~/nexus/解压后～/nexus下目录结构启动Nexus启动命令./nexu

2021-01-29 17:29:35 46262

原创使用Docker(k8s)安装Kafka并使用宿主机连接

使用Docker（k8s）安装Kafka并使用宿主机连接安装Docker及docker-compose具体安装方法可以去官网看教程检查docker-compose是否安装成功创建 docker-compose.yml 文件version: '2'services: zookeeper: image: "zookeeper" hostname: "zookeeper.local" container_name: "zookeeper" #设置网络别名可随

2021-01-11 17:59:07 45489

原创 Kafka穿过网闸（物理层）进行消费

Kafka穿过网闸（物理层）进行消费前言服务器信息互联网服务器A：网闸机器B：内网服务器C：Kafka server.properties配置测试内网消费者（Springboot）代码application.properties原理新消费组加入的过程前言当前公司有一个场景，就是在互联网服务器搭建kafka集群，在内网环境下进行互联网Kafka集群的消费，在内外网之间搭建一层物理层面的网闸来代理外网服务器。由于对安全的考虑，内外网服务器都打开了防火墙。当时只使用互联网Kafka集群对内网机器开通

2020-12-21 15:02:31 46310 1

原创通过Nginx代理Kafka实现跨网络消费

通过Nginx代理Kafka实现跨网络消费1. 服务器环境2. 服务搭建2.1 服务器B服务搭建2.2 服务器A服务搭建3. 测试连通性1. 服务器环境两台服务器同在一个网段(都开打开防火墙模拟跨网)分别为服务器A、服务器B服务器A(172.**.**.219)：安装Nginx(1.8.0以上的Nginx才支持stream模块)服务，对所有网段打开9092端口服务器B(172.**.**.220)：安装Kafka服务，对服务器A打开9092端口2. 服务搭建2.1 服务器B服务搭建

2020-12-11 16:35:53 51580 2

原创使用MapReduce实现定图的最小生成树

使用MapReduce实现定图的最小生成树如何实现计算最小生成树什么是最小生成树最小生成树的性质使用`Kruskal`算法实现最小生成树Kruskal算法简述实现逻辑MapReduce实现`Kruskal`算法如何实现计算最小生成树什么是最小生成树在一给定的无向图G = (V, E) 中，(u, v) 代表连接顶点 u 与顶点 v 的边（即），而 w(u, v) 代表此边的权重，若存在 T 为 E 的子集（即）且为无循环图，使得w(T)=∑(u,v)∈tw(u,v)w(T) = \sum_{(u,

2020-09-07 08:46:59 47679 4

原创 Spark MLlib基于K-Means实现数据聚类

Spark MLlib基于K-Means实现数据聚类K-MeansK-Means简介算法实现原则Spark实现K-MeansSpark机器学习库算法步骤完整代码（基于spark.ml）K-MeansK-Means简介 k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之

2020-09-07 08:46:42 48764 4

原创 Spark超时重启、自动拉起脚本(Python版)

程序说明无自动拉起脚本Spark Streaming程序往往不稳定，遇到一些网络延迟或者部分节点挂掉会导致程序批次时间过长，从而影响程序的实时性。Spark Streaming 程序会因为一些不可控因素宕机，影响数据处理。该自动拉起脚本会根据Spark在Yarn中的任务ID去判断程序是否宕机，如果程序宕机，则启动Spark程序。会根据Yarn的Web页面获取当前批次的处理时长，如果批次执行时间过长的话就会重启Spark程序。代码(Python版)# -*- coding: utf-8

2020-07-24 19:47:16 48933

原创 Spark(Scala)连接带Kerberos认证的Hbase

参数zookeeperQuorum：zookeeper主机名/IPclientPort：zookeeper端口znodeParent：Hbase在zookeeper中的元数据节点(可在Hbase配置文件中或者ZkCli中查看该配置)kerberosConfPath：krb5.conf路径(可放在项目的resurces目录下)principal：具有访问权限的Kerberos票据keytabPath：Kerberos票据对应的keytab路径Java版代码连接代码import org.a

2020-07-22 16:53:54 49933

原创 Java连接Kerberos认证的Hbase

参数zookeeperQuorum：zookeeper主机名/IPclientPort：zookeeper端口znodeParent：Hbase在zookeeper中的元数据节点(可在Hbase配置文件中或者ZkCli中查看该配置)kerberosConfPath：krb5.conf路径(可放在项目的resurces目录下)principal：具有访问权限的Kerberos票据keytabPath：Kerberos票据对应的keytab路径连接代码package com.tky.conf

2020-07-22 16:38:07 49101

原创 Spark ML计算皮尔逊相似度案例

Spark ML 计算两用户间的皮尔逊相似度功能说明数据格式及说明设计思路Spark ML 计算皮尔逊相关系数代码(Scala)功能说明该程序根据不同用户对不同电影的评分情况，通过Spark ML中Correlation.corr函数计算用户之间的皮尔逊相关矩阵。数据格式及说明该数据为模拟数据。X A:5.0,B:1.0,C:2.0,D:0Y A:3.0,B:1.0,C:2.0,D:3.00其中X、Y分别代表两个用户A-D代表电影名称，电影名后面代表该用户的评分注意：实

2020-07-08 17:58:57 30440 2

原创 Spark MLlib机器学习 Pipelines

Spark ML PipelinesML管道管道的主要概念DataFramePipeline components(管道组件)Transformers(转换器)Estimators(估算器)Properties of pipeline components(管道组件属性)Pipeline(管道)工作流程详细参数ML持久性：Saving and Loading Pipelines持久性的向后兼容代码示例Estimator, Transformer, and ParamPipelineML管道管道的主要概念

2020-07-02 22:04:47 29275

原创 Hbase单节点伪分布式搭建

Hbase伪分布式搭建引言Hbase伪分布式搭建是指在一台机器上同时运行 Hmaster、 Hregionserver，该文章基于Hadoop伪分布式搭建Hadoop伪分布式搭建传送门搭建过程Zookeeper安装将Zookeeper压缩包上传至服务器解压缩Zookeeper二进制文件[root@CentOS ~]# tar -zxvf zookeeper-3.4.6.tar.gz -C /opt/install/c进入Zookeeper根目录[root@CentOS ~]#

2020-06-27 16:19:07 29349

原创 Hive安装(超详细)

Hive安装前提环境Hive安装解压文件修改配置文件HDFS创建Hive工作空间配置Hive环境变量Hive启动替换Hive原生MetaStore前提环境Linux基础设置以及Hadoop环境安装请看上一篇文章Hive安装解压文件[root@localhost ~]# tar -zxvf apache-hive-1.2.2-bin.tar.gz -C /opt/install/修改配置文件[root@localhost apache-hive-1.2.2-bin]# cd /opt/in

2020-06-24 18:03:00 33445 4

原创 Hadoop 伪分布式搭建(超详细)

Hadoop伪分布式搭建虚拟机准备阶段操作安全设置防火墙相关指令关闭关闭selinuxIP设置查看机器IP修改主机名修改IP及主机名映射SSH免密登陆Hadoop伪分布式搭建JDK配置解压配置环境变量Hadoop配置解压文件修改配置文件配置Hadoop环境变量验证环境变量是否配置成功格式化NameNodeHadoop起停命令查看WebUI界面虚拟机准备阶段操作本文是基于CentOS 7 系统搭建相关资源下载链接:https://pan.baidu.com/s/1FW228OfyURxEgnXW0qq

2020-06-24 17:44:34 43961 13

原创 Spark入门( 九)——机器学习 Spark MLlib

Spark MLlib机器学习是什么？机器学习Spark MLlibSpark MLlib案例快速入门基本统计Correlation(相关性)Hypothesis testing(假设检验)Summarizer(总结器)未完待续。。。机器学习是什么？机器学习数据挖掘有着50多年的发展历史。机器学习就是其子领域之一，特点是利用大型计算机集群来从海量数据中分析和提取知识机器学习与计算统计学密切相关。它与数学优化紧密关联，为其提供方法、理论和应用领域。机器学习在各种传统设计和编程不能胜任的计算机任务中有广

2020-06-24 13:13:59 29277

原创 Thread.sleep(0)到底是个什么骚操作？

今天看到一段有意思的代码：Thread.sleep(0)，下面就来分析一下这串看似无用的代码到底有没有用。Thread.sleep(0)到底是个什么骚操作，这睡0毫秒和不睡有什么区别吗？操作系统资源的分配策略想要去了解多线程，就先要去了解操作系统中资源的不同分配策略在操作系统中，CPU资源的分配策略有多种，下面就拿两种最为典型的策略举例：时间片算法基于时间片算法分配资源的代表就是Unix系统。在时间片算法中，操作系统会维护一个队列，将所有的进程放入队列中。然后操作系统会按照队列中的进程顺序为

2020-06-17 23:20:29 29764

原创 Spark入门( 八)——Spark流计算新玩法-Structured Streaming

Structured Streaming介绍与使用

2020-06-15 22:27:02 25363 2

原创 Spark入门(七)——最全的Saprk SQL算子介绍与使用(下)

Spark SQL 查询SQL语法查询单行查询模糊查询排序查询limit查询分组查询having过滤case-when行转列pivotCube计算Join表连接子查询开窗函数开窗函数SQL解读ROW_NUMRANK()DENSE_RANK() /密集排名自定义函数单行函数聚合函数（untyped）Load/SavePaquetJSONORC(存储压缩格式，比较节省空间)CSVJDBCDataFrame转为RDDSQL语法查询单行查询// 单行查询var userDF = List((1, "张三",

2020-06-12 15:27:16 19471

红蜘蛛控屏软件 window

空空如也