自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(188)
  • 收藏
  • 关注

原创 clickhouse单实例安装启动

ClickHouse client version 21.6.3.14 (official build).Connecting to localhost:9000 as user default.Code: 210. DB::NetException: Connection refused (localhost:9000)

2021-06-10 10:49:39 233

原创 scala和java混合编译问题

接手一个纯scala项目,改造,加了些java代码,编译项目没有问题,但单独运行测试用例的时候出现异常了,跟了一段时间才解决。运行testcase错误提示scalac: error while loading Object, Missing dependency 'object scala in compiler mirror', required by /Library/Java/JavaVirtualMachines/jdk1.8.0_261.jdk/Contents/Home/jre/lib

2021-05-07 16:46:45 1137

原创 openssl编译

经常遇到应用程序依赖的openssl版本与环境提供的openssl版本不一致问题,需要升级或者降级opensll,重新编译openssl的动态链接库。如果编译和重新链接动态库?下载所需要的openssl版本源码,编译动态链接库存./config -d shared --prefix=/usr/local/sslmake clean && make && make install...

2021-04-27 21:09:59 143

原创 flink报错:incompatible types for field cpuCores

现象一个flink项目,flink版本1.9.2,对自己写的代码还是比较有数,但在本地测试环境提交任务运行的时候,报错如下,有些莫名其妙org.apache.flink.client.program.ProgramInvocationException: Could not retrieve the execution result. (JobID: 030a3c303bbf7a5082b9d303057f7f12) at org.apache.flink.client.program.r..

2021-04-15 15:58:36 1802

原创 srping-data-redis+jedis使用问题及解决

最近尝试用srping-data-redis+jedis,用线程池方式读写redis,参考别人一些方法,遇到一些问题,一一解决。如果有遇到类似问题,可能需关注下版本,本人验证的srping-data-redis+jedis版本2.4.2,jedis版本3.5.2。 <dependency> <groupId>com.google.code.gson</groupId> <artifactId&...

2021-04-13 20:12:51 195

原创 flink并行度设置问题

之前写过一篇文章,介绍flink的并行度问题:https://blog.csdn.net/L13763338360/article/details/106632612并行度的设置有几种,按优先级先后依次是:算子级别 执行环境级别 命令行级别 配置文件级别公司用的flink是基于开源改造的,跟开源还是有些区别,使用过程中也碰到一些问题,这里简单总结下。有两个跟并行度相关的配置taskmanager.numberOfTaskManagers:taskManager数量 taskmana

2021-02-04 11:07:33 3118

原创 flink定时器使用问题

时间模型flink在streaming程序中支持三种不同的时间模型event time:事件发生时间。根据事件时间处理,可能需要等待一定时间的延迟事件和无序事件,事件时间也常常跟处理时间操作一起使用。 ingestion time:进入flink的时间(source operator分配的时间)。不能处理任何无序事件或者延迟事件,但是程序无需指定如何产生水印。 processing time:flink执行window操作的时间。处理时间最简单,有最好的性能和最低的延迟,但无法处理事件乱序问题。

2021-01-29 10:00:21 3122

原创 kafka版本冲突导致taskexecutor启动异常

问题描述本地部署过两套flink环境,分别是1.9.1和1.9.2版本。最近在1.9.1版本下启动flink任务时,taskmanager日志正常,但taskexecutor疯狂打印日志,如下2021-01-23 09:38:41,743 INFO org.apache.kafka.common.utils.AppInfoParser - Kafka version : 0.9.0.12021-01-23 09:38:41,743 INFO org.apa...

2021-01-23 10:15:05 1050 2

原创 Redis报错:(error) MISCONF Redis is configured to save RDB snapshots...

本地redis测试环境,突然老写不成功,命令行执行set或者del操作,报错如下127.0.0.1:6379> del act_1(error) MISCONF Redis is configured to save RDB snapshots, but it is currently not able to persist on disk. Commands that may modify the data set are disabled, because this instance i.

2021-01-21 15:29:27 287

原创 curl或者python脚本请求127.0.0.1返回504错误

本地起了一个测试服务,浏览器可以正常访问,curl或者python请求返回504错误。问题描述1. 本地读了一个简单的java服务,用浏览器请求,正常返回。2. 一些复杂的请求,需要postman或者python脚本来完成,用postman尝试,也正常访问。3. 用python的requests模块请求时,总是返回504错误。import timeimport requestsdef test(): start_time = time.time() res = ...

2021-01-18 10:52:08 2452

原创 kong安装启动问题

安装kong,需要先创建个pg库,配置pg需要的变量docker安装kong,kong版本2.1.3,遇到下面报错2021/01/11 04:36:57 [warn] 1#0: load balancing method redefined in /usr/local/kong/nginx-kong.conf:56nginx: [warn] load balancing method redefined in /usr/local/kong/nginx-kong.conf:562021/01/

2021-01-11 15:01:16 3698

原创 centos下python安装pgadmin

python安装pgadmin方法https://blog.csdn.net/java1993666/article/details/85635789启动pgadmin的时候报错#python pgAdmin4.pyTraceback (most recent call last): File "pgAdmin4.py", line 34, in <module> import config File "/root/miniconda3/lib/python3...

2021-01-06 19:03:25 2131

原创 docker-compose启动时创建网络失败问题解决方法

一直听说docker-compose是好东西,一直没用上。今天有时间学习下:https://www.runoob.com/docker/docker-compose.html。问题现象执行docker-compose up的时候报错(base) [root@VM-100-213-centos ~/composetest]# docker-compose upCreating network "composetest_default" with the default driverERROR

2021-01-05 19:12:33 23692

原创 python安装kafka客户端

问题现象本地环境python 3.8.3版本pip install kafka,还是无法导入KafkaConsumer(base) leonlai@LEONLAI-MB0 ~ % pythonPython 3.8.3 (default, May 19 2020, 13:54:14)[Clang 10.0.0 ] :: Anaconda, Inc. on darwinType "help", "copyright", "credits" or "license" for more inf.

2020-12-30 15:43:02 5069

原创 flink实时任务因jedis连接池导致的任务阻塞问题

问题现象有个flink实时任务,读kafka和redis,处理完后写redis。flink实时任务运行一段时间后,就阻塞了,有时间几个小时,有时一两天后。任务看起来正常是正常的,但已经不读kafka了,checkpoint也失败。看日志,kafka一直WARN,提示Marking the coordinator xxx dead.原因分析第1步刚开始以为是kafka的问题,导致了任务阻塞。于是寻找解决办法,也有人遇到类似的问题,但办法不管用。后面了解到kafka集群版本之前是

2020-12-08 15:39:52 1997

原创 to_sql写pg性能问题跟踪解决

1. 问题描述最近有部分数据,从原来写mysql实例,改成写pg实例,用pandas.DataFrame.to_sql方法。期间发现,同样的数据写mysql和pg,差异相当大10万+数据量,mysql 1-3秒,pg 2-3分钟40万+数据量,mysql 5-8秒,pg 9-10分钟写pg代码如下engine = create_engine('postgresql://use:password@host:port/database')connect = engine.connect

2020-11-26 18:16:08 1050

原创 gcc编译

最近下载了10.2.0版本的gcc进行编译,执行./configure时报错checking build system type... x86_64-unknown-linux-gnuchecking host system type... x86_64-unknown-linux-gnuchecking target system type... x86_64-unknown-linux-gnuchecking for a BSD-compatible install... /usr/bin/

2020-11-13 12:54:12 1153

原创 LLVM+Clang编译安装卸载

我下载的是最新版本的代码,LLVM+Clang编译安装比较耗硬件资源,8核16G内存300G硬盘,硬盘是分两块,一块100G,另一块是200G。遇到几次内存和磁盘不够的问题,一一解决,下面是我的编译安装步骤和遇到的一些过程。前期准备工作1. 安装svnyum install subversion2. 升级cmake,升级到3.0以上版本。[root@VM-100-213-centos ~]# cmake --versioncmake version 3.9.2CMake

2020-11-12 16:51:02 7031 1

原创 mysql 8.0.21用户及权限操作

删除用户drop user 'azkaban'@localhost;创建用户create user 'azkaban'@'%' identified by 'azkaban';授权用户grant all privileges on azkaban.* to 'azkaban'@'%';刷新操作flush privileges;查看权限SELECT DISTINCT CONCAT('User: ''',user,'''@''',host,''';') AS ...

2020-11-05 20:19:18 399

原创 thriftpy依赖安装问题

安装第三方库的时候,依赖于thriftpy,报错如下Building wheel for thriftpy (setup.py) ... error ERROR: Command errored out with exit status 1: command: /data/home/leonlai/miniconda3/bin/python -u -c 'import sys, setuptools, tokenize; sys.argv[0] = '"'"'/tmp/pip-install...

2020-11-05 16:51:16 1363

原创 flink日志问题

flink实时任务,使用了debug,但taskManager上运行的任务一直没有debug级别的日志,只有info日志。最终回到flink配置,弄清flink/conf下面的日志配置文件作用log4j.properties:在yarn模式下,jobManager和taskManager上用的log配置都依赖于它!log4j-cli.properties:flink run启动时的日志依赖于该配置log4j-yarn-session.properties:用yarn-session.sh启

2020-10-21 10:47:23 4299

原创 解决jedis密码为空问题

问题代码如下FlinkJedisPoolConfig flinkJedisPoolConfig = new FlinkJedisPoolConfig.Builder() .setHost("127.0.0.1") .setPort(6379) .setPassword("") .setTimeout(2000) .setMaxTotal(200) .setMaxIdle(10) .setM.

2020-09-23 20:46:54 3100

原创 flink任务读取资源文件问题

问题描述写一个flink实时任务,任务启动时解析资源目录下的xml文件。代码写好了,测试代码运行也ok,但一提交到集群运行的时候,就提示找不到文件。目录结构如下示例代码如下try { SAXReader saxReader = new SAXReader(); URL url = this.getClass().getResource("/cjm.xml"); File inputXml = new File(url.getFile());

2020-09-23 10:28:36 2805 1

原创 实时任务数据丢失

1. 背景描述flink实时任务:从kafka集群读取源数据 从redis定期全量拉取用户白名单,然后进行广播 源数据connect白名单数据,源数据根据白名单数据进行过滤处理 过滤处理完后的数据,http推送、写redis、写log等2. 问题分析上线验证的时候,有些数据丢失,而且比较频繁,分析可能原因:kafka源数据丢失。这个有可能,但是小概率事件,不应该那么频繁出现。 redis拉取白名单后广播操作。这个有可能,需要重点排查。 过滤以及数据处理。这个不太可能,可以添加日志

2020-09-16 14:46:10 437

原创 解决java和scala的Tuple混用问题

背景简述平时日常数据开发主要用idea,确实挺强大。近日写了个flink任务,非广播流和广播流合并,然后过滤处理。处理逻辑都很通用,大概是这样:BroadcastConnectedStream的process调用了WhitelistBroadcastProcess类,该类继承BroadcastProcessFunction,并实现processElement和processBroadcastElement方法,分别处理广播流和非广播流。问题描述上图中红色波浪线提示错误Cannot

2020-09-11 09:04:56 1855

原创 解决flink提交任务时的部分问题

启动flink任务时,报错如下SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/Users/leonlai/Documents/env/flink-1.9.1/lib/slf4j-log4j12-1.7.15.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J: Found binding in [jar:file:/Users

2020-08-22 23:43:39 9387 1

原创 解决写kafka数据时LEADER_NOT_AVAILABLE错误

自己的机器搭建kafka环境,测试过程中发现,写数据的时候一直报错(base) leonlai@LEONLAI-MB0 kafka_2.11-0.9.0.1 % ./bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test_topicaa[2020-08-22 00:29:52,814] WARN Error while fetching metadata with correlation id 0 : {tes

2020-08-22 00:44:43 7927

原创 编译flink1.11版本问题总结

1.解决npm问题1.1 报错如下[ERROR] Failed to execute goal com.github.eirslett:frontend-maven-plugin:1.6:npm (npm install) on project flink-runtime-web_2.11: Failed to run task: 'npm ci --cache-max=0 --no-save --registry=https://registry.npm.taobao.org' failed..

2020-08-17 13:56:07 2650

原创 kafka-eagle和kafka server版本不一致问题

kafka版本太多,目前最新的已经到2.6.0,但很多线上用的可能还用0.9版本,以往经验,不同版本api存在不少兼容性问题。另外kafka没有实现类似支持es的kibana管理工具,纯靠命令行很蛋疼。在上一家公司的时候,kafka+kafka-eagle配合使用挺方便,对kafka-eagle进行二次开发后,能满足大多数需求。前提是kafka集群和kafka-eagle都是自己搭建的,kafka-eagle依赖的版本与kafka集群一致。现在公司的kafka集群使用的版本是0.9版本,不是我想动就

2020-08-12 11:08:28 2295

原创 flink任务重启原因分析

有个flink实时任务,上周升级了版本,早上过来看下任务,发现任务凌晨4点左右的时候重启了。flink ui查看异常日志如下异常日志2020-08-10 04:07:23org.apache.flink.runtime.io.network.netty.exception.RemoteTransportException: Connection unexpectedly closed by remote task manager '/9.150.12.175:39365'. This m.

2020-08-10 17:41:00 12990 1

原创 解决idea打开某个项目卡住的问题

今天在idea上调试某个项目,结果idea崩了,一直打不开,重启重装也不行,应该是重装不彻底不干净。寻找了网上的一些解决方法,都不管用。既然网上上解决方法也不行,重装也不行,那就老老实实地解决问题吧。具体现象是这样的:崩在某个项目,强制退出再重新打开,还是卡在这个项目,这时候右键点击程序坞idea图标,还可以打开最近已经打开过的项目,也可以正常关闭,但是崩掉的项目还是卡住。强制退出idea重新启动,还是卡在崩掉的那个项目,让人崩溃。既然最近打开的项目都可以打开,唯独崩掉的项目不能打开,那应该是ide

2020-08-07 20:41:46 6781 1

原创 mvn编译提示:source 1.5 中不支持 diamond 运算符

1. 最近新换了一个mac os,重新安装环境,用新装的idea随便编译一个项目就报错,如下% ./build.sh[INFO] Scanning for projects...[INFO] ------------------------------------------------------------------------[INFO] Reactor Build Order:[INFO][INFO] ke ...

2020-08-06 19:57:42 1408

原创 idea下载安装plugins总是

问题:点击左侧Plugins按钮,Marketplace搜索不出插件解决:Appearance & Behavior->HTTP Proxy,勾选Auto-detect proxy settings,然后重启idea效果:重启idea,重新点击Plugins,现在已经可以正常搜索下载安装插件了...

2020-07-30 10:58:33 320

原创 java对象内存分配与回收策略

java对象内存的分配,从概念上讲都应该分配在堆上分配,实际有可能经过即时编译后被拆散为标量类型并间接地在栈上分配。新生对象通常分配在新生代中,少数情况下可能会直接分配在老年代(比如对象大小超过一定阀值)。对象的分配规则并不是固定的,取决于虚拟机使用哪一种垃圾收集器,以及虚拟机中与内存相关的参数设定。使用HotSpot虚拟机,以客户端模式运行,使用Serial+Serial Old客户端默认收集器组合的内存分配和回收策略,最基本的几条内存分配原则。1. 对象优先在Eden分配大多数情况下,对象在

2020-07-05 16:25:05 3046

原创 低延迟垃圾收集器:Shenandoah和ZGC

1. 低延迟垃圾收集器衡量垃圾器的三个重要指标:内存占用 吞吐量 延迟这三个方面共同构成“不可能三角”,要在这三个方面同时具有卓越表现的收集器是非常困难的,甚至是不可能的,一款优秀的收集器最多同时可以达到其中两项。低延迟收集器主要有Shenadoah和ZGC,它们有几个特点几乎整个工作过程都是并发的,只有初始标记、最终标记阶段有短暂停顿 停顿时间基本是固定的,与堆的容量、堆中对象的数量不成正比例关系 Shenadoah和ZGC都可以在任意管理的(ZGC只能管理4TB以内的堆)堆容量

2020-07-05 15:38:10 891

原创 grafana+influxdb监控告警配置

grafana和influxdb的文章不少,但是grafana上的告警配置,很多不全面不完整。建议参考优质文章:grafana高可用和Alerting(七)

2020-07-02 10:45:28 1783

原创 Spark 3.0新特性介绍

1. 自适应查询优化这是 Databricks 和Intel 中国团队在做的项目(https://tinyurl.com/y3rjwcos),基于已完成的执行计划节点的统计数据,优化剩余的查询执行计划,它的特点是:减少 Reducer 的数量 将 Sort Merge Join 转换为 Broadcast Hash Join 处理数据倾斜2.动态分区修剪静态分区裁剪优化动态分区裁剪优化spark.sql.optimizer.dynamicPartitionPruning..

2020-06-29 14:16:02 4013

原创 Hive 3.0新特性简介

1. 执行引擎MR变更为TEZApache TEZ是一个针对Hadoop数据处理应用程序的分布式计算框架,基于Yarn且支持DAG作业的开源计算框架。 Apache TEZ的核心思想是将Map和Reduce拆分成若干子过程,即Map被拆分成Input、Processor、Sort、Merge和Output, Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等,分解后可以灵活组合成一个大的DAG作业。 Apache TEZ提供了较低级别的抽象,为了

2020-06-29 10:51:36 8114

原创 python操作influxdb插入数据失败问题

最近做实时和离线数据监控,对比离线和实时的数据量是否一致,用python调用第三方influxdb包插入到influxdb时序数据库,碰到一些问题。influxdb的表叫measurements,不需要创建,只要插入数据,会自动生成。python插入inluxdb代码大概如下from influxdb import InfluxDBClientclient = InfluxDBClient(host='xxx.xxx.xxx.xxx', port=8086, username='', pas

2020-06-23 16:13:59 1986

原创 hbase优点和缺点及部分优化

HBase是一个建立在HDFS之上的分布式,提供高可靠性,高性能,列存储,可伸缩,实时读写NoSQL的数据库系统。HBase优点支持大数据:一个表可以有上十亿行,上百万列 列式存储:面向列(簇)的存储和权限控制,列(簇)独立检索 记录稀疏:对于为空(null)的列并不占用内存空间,因此,表可以设计的非常稀疏,节省空间 支持多版本:每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时的时间戳 半结构化或非结构化数据:对于数据结构字段不够确定或杂乱无章非常难按一个概念去进行抽

2020-06-23 09:44:16 4447

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除