为一个人走几座城-CSDN博客

原创 MongoDB集合结构分析工具Variety

对于Mongo这种结构松散的数据库来说，如果想探查某个集合的结构，通过其本身提供的功能很不方便，通过调研发现一个很轻便的工具--variety，可以让使用者很轻松的了解存储在Mongo中具体集合的数据结构。满足特定查询条件的数据：--eval "var collection='{collectionName}', query={'key': true}"结果输出格式：--eval "var collection='{collectionName}', outputFormat='json'"

2024-04-03 12:50:34 824

原创大数据必回之LSM树

LSM树（Log-Structured-Merge-Tree）并不像B+、红黑树一样是一颗严格的树状数据结构，它其实是一种存储结构，像HBase、RocksDB这些NoSQL存储都是采用LSM树。它是一种分层、有序、面向磁盘的数据结构，核心思想是顺序写性能远高于随机写性能，将批量随机写转化为一次性的顺序写。

2023-08-14 18:55:54 340

原创策略+工厂类替换IF ELSE

一、创建工厂类public class OpenStrategyFactory { private static final Map<String, OpenApiStrategy> STRATEGY_MAP = new HashMap<>(); // 枚举值维护 static { STRATEGY_MAP.put("businessdata", new BusinessImpl()); STRATEGY_M

2022-02-16 15:36:40 444 2

原创 Superset汉化、支持Oracle连接及自定义CSS样式

一、汉化二、支持Oracle数据库连接三、自定义CSS样式

2021-12-25 20:15:17 2261

原创 flink SQL 体验遇到问题

一、报错：[ERROR] Could not execute SQL statement. Reason:org.apache.flink.table.api.ValidationException: Could not find any factory for identifier 'kafka' that implements 'org.apache.flink.table.factories.DynamicTableFactory' in the classpath.Available fac

2021-10-27 14:32:40 5916 1

原创 SpringBoot整合DJL

通过DJL框架可以实现算法Java化，当然这也并不是说完全可以取代，但是当前大多数场景还是可以兼容的，尤其是有关Paddlepaddle，Tensorflow，Pytorch等模型支持还是比较好的，DJL社区活跃度目前相对也比较高。在和SpringBoot整合过程中，需要特别注意以下一个问题：<dependency> <groupId>ai.djl</groupId> <artifactId>api</artifactId> &lt

2021-07-23 09:34:48 2545 3

原创 Flink之异步请求AsyncDataStream生产问题记录

最近生产在搞实时统计需求，在开发环境进行开发的初期，想通过Flink的AsyncDataStream.orderedWait()异步请求的方式，将统计结果最终落地到数据库中。过程中需要查询一些MongoDB中维表的数据，本地测试数据量可能不是很大，所以没有问题。但是当到生产上运行后，就出现了下述问题：java.util.concurrent.RejectedExecutionException: java.lang.IllegalStateException: Mailbox is in state

2021-04-29 10:57:42 1680 6

原创 Flink两种方式动态写入Kafka多个topic

<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka-0.11_2.12</artifactId> <version>1.10.2</version></dependency><dependency> <groupId>org.apache.

2021-04-16 19:01:33 2732 1

原创自定义Flink消费和生产Kafka消息（消费时Schema、生产时Key&Value&分区）

当我们在消费Kafka数据时，比较常用的是SimpleStringSchema，我个人比较喜欢用的是JSONKeyValueDeserializationSchema。上述两个API可以完成绝大多数的开发场景，但是但遇到个别的特殊场景时，我们需要自定义数据格式，此时我们就需要自定义xxSchema了，这里我们需要实现KafkaDeserializationSchema，从而来完成重定义消费时Kafka的数据格式。以下是基本的模板，需要什么样的数据格式，只需要做简单的修改即可。package com

2021-04-13 10:52:42 1575

原创 Flink 查看作业执行计划

当我们在开发Flink任务的时候，一般情况下Source-Transform-Sink流程就能满足基本的需求了。但是当应用变得非常复杂的时候，可能在一个Job里算子的个数会达到很多，几十、几百。这个时候整个程序就会变得非常复杂，所以如果能随时本地开发时能及时知道Job的执行计划就非常方便了。为了满足我们类似的需求，可以两种方式去实现。一、<dependency> <groupId>org.apache.flink</groupId> <

2021-04-01 15:06:50 1235

原创 Flink执行报错＜很晦涩＞

org.apache.flink.streaming.runtime.tasks.ExceptionInChainedOperatorException: Could not forward element to next operator at org.apache.flink.streaming.runtime.tasks.OperatorChain$CopyingChainingOutput.pushToOperator(OperatorChain.java:658) at org.apache.

2021-04-01 09:17:36 2329 2

原创 Flink算子之RichParallelSourceFunction、RichSourceFunction因数据源不同，存在的差异

两套代码流程，完全一样。但是在读取到同样的数据后，数据返回给addSource算子后，通过transform算子后，继承RichSourceFunction的消息会出现丢失。但是是区分数据源的，MySQL就没有类似的情况，但是Elasticsearch就会出现。public class ElasticSource extends RichParallelSourceFunction<String>/RichSourceFunction { @Override pub.

2021-03-12 17:41:58 2807 1

原创 log4j日志写入路径动态重定向

实际开发中，日志对于我们定位问题，快速解决问题是非常重要的，所以好的日志输出项与日志文件有效的拆分是至关重要的。最近新开发的一个项目就要求，按照不同日志级别、不同的类将信息写入到不同的文件，具体结构如图。这样通过自己在实际方法中定义输出日志级别，出现问题后直接进入到对应的类中看对应的日志信息即可。这里需要在项目中引入对应的pom依赖：<dependency> <groupId>log4j</groupId> <artifactId&

2020-11-11 10:01:34 346

原创 Flink两阶段提交之关系型数据库（MySQL）

最近在一边学习，一边将Flink流处理技术应用到公司的业务场景中。目前会通过采集方式将数据库的数据变更写入到Kafka，后面通过Flink处理后，落地到数仓中，因为目前数仓对外提供的是一些接口服务，所以目前还是以Oracle为主，其他的数据存放在Greenplum中。当前主要任务是将Kafka中的数据通过Flink落地到Oracle中。因为是一些交易数据，所以对数据的准确性非常敏感，Flink的强大之处就在于帮我们实现了方式来保证数据仅一次处理（Exactly-once）。这里我们抛开其他的点不说，只说Tw

2020-10-29 17:44:52 1673 12

转载 Spark Security面面观

一、背景作为一款成熟的商业软件，安全往往鲜少被提及但又不可忽略，大数据软件也是如此。在生产环境中，对于一款成熟的大数据软件的考量，不仅需要考虑其功能完备性和性能，同时安全也是不可缺少的一环。为什么安全如此重要呢？首先，商业环境通常是多租户环境，不同的用户/组对于不同的数据/应用有不同的安全考量。我们需要保证相应的用户不能做出超越权限的操作。同时，分布式架构会将端口、数据暴露出去，如...

2020-03-01 09:56:59 933

转载 Livy：基于Spark的REST服务

一、摘要 Apache Spark是现今最为流行的开源大数据计算框架，广泛应用于数据处理和分析应用。它提供的两种基于命令行的处理交互方式虽然足够灵活，但在企业应用中面诸如部署、安全等的问题。为此本文引入Livy这样一个基于Apache Spark的REST服务，它不仅以REST的方式代替了Spark传统的处理交互方式，同时也提供企业应用中不可忽视的多用户，安全，以及容错的支持。...

2020-03-01 09:46:20 480

原创 Spark消费kafka错误集锦

一、19/07/05 00:10:05 ERROR Executor: Exception in task 0.0 in stage 1.0 (TID 2)org.apache.kafka.clients.consumer.OffsetOutOfRangeException: Offsets out of range with no configured reset policy for ...

2019-07-30 18:46:58 757

原创 SpringBoot问题集锦：NoSuchBeanDefinitionException

学习SpringBoot的过程中，通过test方法进行测试Bean注入时，报错如下：Positive matches:----------------- CodecsAutoConfiguration matched: - @ConditionalOnClass found required class 'org.springframework.http.codec.C...

2019-06-27 16:44:00 2863

转载 Hive通过TEZ引擎执行count

Hive使用TEZ作为默认的执行引擎，当表插入完记录后，count得到的结果为0，如果使用MR作为执行引擎来执行count，结果与实际记录数一致。使用TEZ执行count十分高效，绕过了MapReduce操作，实际结果不正确，应该是TEZ内部有某种机制count()直接查询统计信息，然后统计信息不是最新的，导致count结果不正确。hive> SELECT cou...

2019-06-21 10:35:29 1469 1

原创 Spark开发问题集锦1

19/06/04 11:12:00 WARN DFSClient: Slow ReadProcessor read fields took 41999ms (threshold=30000ms); ack: seqno: 38596 reply: SUCCESS reply: SUCCESS downstreamAckTimeNanos: 18446744031720466026 flag: 0...

2019-06-05 09:56:06 2067 1

原创 Spark解析binlog日志，写入MySQL

1. 背景由于公司业务线的不断拓展，创建了很多MySQL实例，为了安全起见每个实例之间不能直接互相访问，但是业务部门又需要整合各个业务线的数据进行分析、制定风控策略等。因此需要将不同业务线数据进行归集。当然一下方案不是最优的，MySQL实例之间数据互通，有很多成熟且稳定的方式，因此我觉得我们选择了一种不是非常理想的方式！2. 处理流程 MySQL ——>...

2019-06-03 23:04:16 1953

原创 Shell脚本给Datax的job文件传参

当前有一个需求，读取HDFS中的分区数据，然后将数据写入到MongoDB。由于要求每次导入Mongo的是增量的数据，但HDFS中没有相应的字段对数据进行标识哪些是新增的。需要依据相应的策略去判断相应的增量数据。通过Hive的SQL将每天的全量数据与历史的增量数据进行关联（LEFT OUTER JOIN）where条件是右表的关联字段IS NULL，而关联条件是基于判重的字段组合生成M...

2019-05-14 14:34:10 4794

转载自建Binlog订阅服务 —— Maxwell

1. 介绍Maxwell 是java语言编写的能够读取、解析MySQL binlog，将行更新以json格式发送到 Kafka、RabbitMQ、AWS Kinesis、Google Cloud Pub/Sub、文件，有了增量的数据流，可以想象的应用场景实在太多了，如ETL、维护缓存、收集表级别的dml指标、增量到搜索引擎、数据分区迁移、切库binlog回滚方案，等等。它还提供其它功能：...

2018-10-19 10:17:58 5068

原创 gson动态解析json

public class TestEnty {Map<String,Object> li;}package com.Company.Demo;import android.os.Bundle;import android.support.v7.app.AppCompatActivity;import android.util.L...

2018-09-11 16:20:38 560

原创解决：Linux服务器时间与网络不同步问题

最近在搞测试的时候，发现服务器在和本地通信的时候，会出现超时的情况，首先排除了网络带宽的问题。然后在查看超时的服务器上的时间是发现了问题：有3台服务器的时间和本地时间相差很多。于是着手开始处理时间差。安装：yum install ntpdate成功后执行：ntpdate 210.72.145.44 --是中国国家授时中心的官方服务器IP，不是本地IP如果你成功了，恭喜你。但是...

2018-09-11 09:59:18 2922

原创 Spark消费kafka数据，写入Hbase错误

程序在运行，但是日志全是WARN zookeeper.ClientCnxn: Session 0x0 for server header-1.cluster-61477:2181, unexpected error, closing socket connection and attempting reconnectjava.io.IOException: Connection reset...

2018-08-08 18:36:54 973

原创 MaxWell安装部署

在开始之前，我们还是需要先看一下Maxwell官网，对Maxwell有一个简单的了解。Maxwell通过canal解析binlog，并将其发送到Kafka，后续我们通过自己的业务逻辑，处理得到的binlog日志，就OK了。我之前在用的时候，是公司要实时同步业务库的数据到HBase中，然后实现一些实时的查询业务。如果有兴趣的朋友，可以看看canal的底层实现，在这里我就不多赘述了。首先我们需...

2018-07-07 22:14:46 6727 3

原创用Scala处理时间和时间戳互换

时间转换为时间戳import java.text.SimpleDateFormatobject test { def main(args: Array[String]): Unit = { val tm = "2017-08-01 16:44:32" val a = tranTimeToLong(tm) println(a) } def tran...

2018-06-21 14:19:52 8471 1

原创 logstash 出现的问题

[FATAL][logstash.runner ] An unexpected error occurred! {:error=>#<NoMethodError: undefined method `[]' for nil:NilClass>, :backtrace=>["/export/servers/logstash-6.2.2/vendor/bund...

2018-05-26 15:25:18 24745 11

原创 Value '0000-00-00' can not be represented as java.sql.Date解决办法

java.sql.SQLException: Value '0000-00-00 00:00:00' can not be represented as java.sql.Timestamp问题描述，在java应用程序中，数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00”程序使用select 语句从中取数据时出现以下异常：java.sql....

2018-05-26 14:19:54 422

原创 Logstash使用webhdfs插件遇到写入HDFS权限问题

当我正常启动Logstash向HDFS写入数据的时候，报错：[WARN ][logstash.outputs.webhdfs ] Failed to flush outgoing items {:outgoing_count=>1, :exception=>"LogStash::Error", :backtrace=>["org/logstash/ext/JrubyEventEx...

2018-05-22 23:03:28 2759 2

转载 StreamSets数据操作平台（数据移动及数据清洗强大工具）

1、支持多种安装方式1.1、核心安装包（Core Tarball）该安装包包含核心的SDC软件，使该软件具有最小的软件连接器集合，当然你可以手动下载额外的节点（Stage）①通过Streamsets的UI进行安装，UI上点击的位置为：在该软件界面的右边（图标是一个礼物盒子。。。）。②也可以通过使用CLI进行安装，安装过程如下所示：1、下载该【核心安装包】，比如版本为：streamsets-data...

2018-05-22 15:43:16 1752

转载 Logstash处理json根式日志文档的三种方式

假设日志文件中的每一行记录格式为json的，如：{"Method":"JSAPI.JSTicket","Message":"JSTicket:kgt8ON7yVITDhtdwci0qeZg4L-Dj1O5WF42Nog47n_0aGF4WPJDIF2UA9MeS8GzLe6MPjyp2WlzvsL0nlvkohw","CreateTime":"2015/10/13 9:39:59",&am

2018-05-19 17:33:22 2014

原创 SpringBoot框架浅析

我想看到这篇文章的你，大概对相关内容已经有了相关的了解，所以对一些关联的内容我就不多赘述了。在开始前，我们来看一下开发简单的SpringMVC入门案例必须做的准备工作：1. 一个web.xml文件，其中声明了Spring的DispatcherServlet2. 一个启动了Spring MVC的Spr

2018-05-19 17:28:36 437

原创【随记】win10,系统，任务栏--工具栏--桌面，存在两个“控制面板”

如题，对于一个强迫症患者而言，如何删除这个多余的“控制面板”呢？跟着我一起： 1. 打开win + R，输入：regedit，打开注册列表。 2. 按照如下路径查找： HKEY_LOCAL_MACHINE SOFTWARE Microsoft Windows ...

2018-05-19 17:26:36 2298

原创欲重生, 必先浴火

2017年10月22日22时参加工作的时间也不算短了, 总没有时间停一下. 最近总有朋友建议我, 放慢脚步回顾一下这几年的历程, 总结一下经验, 遂发布自己的第一篇博文, 为大家提供小小的帮助, 也跟大家共同进步, 相互交流. -------------- 文|贾静斯

2017-10-22 22:12:49 303

为一个人走几座城