- 博客(188)
- 收藏
- 关注
原创 clickhouse单实例安装启动
ClickHouse client version 21.6.3.14 (official build).Connecting to localhost:9000 as user default.Code: 210. DB::NetException: Connection refused (localhost:9000)
2021-06-10 10:49:39
233
原创 scala和java混合编译问题
接手一个纯scala项目,改造,加了些java代码,编译项目没有问题,但单独运行测试用例的时候出现异常了,跟了一段时间才解决。运行testcase错误提示scalac: error while loading Object, Missing dependency 'object scala in compiler mirror', required by /Library/Java/JavaVirtualMachines/jdk1.8.0_261.jdk/Contents/Home/jre/lib
2021-05-07 16:46:45
1137
原创 openssl编译
经常遇到应用程序依赖的openssl版本与环境提供的openssl版本不一致问题,需要升级或者降级opensll,重新编译openssl的动态链接库。如果编译和重新链接动态库?下载所需要的openssl版本源码,编译动态链接库存./config -d shared --prefix=/usr/local/sslmake clean && make && make install...
2021-04-27 21:09:59
143
原创 flink报错:incompatible types for field cpuCores
现象一个flink项目,flink版本1.9.2,对自己写的代码还是比较有数,但在本地测试环境提交任务运行的时候,报错如下,有些莫名其妙org.apache.flink.client.program.ProgramInvocationException: Could not retrieve the execution result. (JobID: 030a3c303bbf7a5082b9d303057f7f12) at org.apache.flink.client.program.r..
2021-04-15 15:58:36
1802
原创 srping-data-redis+jedis使用问题及解决
最近尝试用srping-data-redis+jedis,用线程池方式读写redis,参考别人一些方法,遇到一些问题,一一解决。如果有遇到类似问题,可能需关注下版本,本人验证的srping-data-redis+jedis版本2.4.2,jedis版本3.5.2。 <dependency> <groupId>com.google.code.gson</groupId> <artifactId&...
2021-04-13 20:12:51
195
原创 flink并行度设置问题
之前写过一篇文章,介绍flink的并行度问题:https://blog.csdn.net/L13763338360/article/details/106632612并行度的设置有几种,按优先级先后依次是:算子级别 执行环境级别 命令行级别 配置文件级别公司用的flink是基于开源改造的,跟开源还是有些区别,使用过程中也碰到一些问题,这里简单总结下。有两个跟并行度相关的配置taskmanager.numberOfTaskManagers:taskManager数量 taskmana
2021-02-04 11:07:33
3118
原创 flink定时器使用问题
时间模型flink在streaming程序中支持三种不同的时间模型event time:事件发生时间。根据事件时间处理,可能需要等待一定时间的延迟事件和无序事件,事件时间也常常跟处理时间操作一起使用。 ingestion time:进入flink的时间(source operator分配的时间)。不能处理任何无序事件或者延迟事件,但是程序无需指定如何产生水印。 processing time:flink执行window操作的时间。处理时间最简单,有最好的性能和最低的延迟,但无法处理事件乱序问题。
2021-01-29 10:00:21
3122
原创 kafka版本冲突导致taskexecutor启动异常
问题描述本地部署过两套flink环境,分别是1.9.1和1.9.2版本。最近在1.9.1版本下启动flink任务时,taskmanager日志正常,但taskexecutor疯狂打印日志,如下2021-01-23 09:38:41,743 INFO org.apache.kafka.common.utils.AppInfoParser - Kafka version : 0.9.0.12021-01-23 09:38:41,743 INFO org.apa...
2021-01-23 10:15:05
1050
2
原创 Redis报错:(error) MISCONF Redis is configured to save RDB snapshots...
本地redis测试环境,突然老写不成功,命令行执行set或者del操作,报错如下127.0.0.1:6379> del act_1(error) MISCONF Redis is configured to save RDB snapshots, but it is currently not able to persist on disk. Commands that may modify the data set are disabled, because this instance i.
2021-01-21 15:29:27
287
原创 curl或者python脚本请求127.0.0.1返回504错误
本地起了一个测试服务,浏览器可以正常访问,curl或者python请求返回504错误。问题描述1. 本地读了一个简单的java服务,用浏览器请求,正常返回。2. 一些复杂的请求,需要postman或者python脚本来完成,用postman尝试,也正常访问。3. 用python的requests模块请求时,总是返回504错误。import timeimport requestsdef test(): start_time = time.time() res = ...
2021-01-18 10:52:08
2452
原创 kong安装启动问题
安装kong,需要先创建个pg库,配置pg需要的变量docker安装kong,kong版本2.1.3,遇到下面报错2021/01/11 04:36:57 [warn] 1#0: load balancing method redefined in /usr/local/kong/nginx-kong.conf:56nginx: [warn] load balancing method redefined in /usr/local/kong/nginx-kong.conf:562021/01/
2021-01-11 15:01:16
3698
原创 centos下python安装pgadmin
python安装pgadmin方法https://blog.csdn.net/java1993666/article/details/85635789启动pgadmin的时候报错#python pgAdmin4.pyTraceback (most recent call last): File "pgAdmin4.py", line 34, in <module> import config File "/root/miniconda3/lib/python3...
2021-01-06 19:03:25
2131
原创 docker-compose启动时创建网络失败问题解决方法
一直听说docker-compose是好东西,一直没用上。今天有时间学习下:https://www.runoob.com/docker/docker-compose.html。问题现象执行docker-compose up的时候报错(base) [root@VM-100-213-centos ~/composetest]# docker-compose upCreating network "composetest_default" with the default driverERROR
2021-01-05 19:12:33
23692
原创 python安装kafka客户端
问题现象本地环境python 3.8.3版本pip install kafka,还是无法导入KafkaConsumer(base) leonlai@LEONLAI-MB0 ~ % pythonPython 3.8.3 (default, May 19 2020, 13:54:14)[Clang 10.0.0 ] :: Anaconda, Inc. on darwinType "help", "copyright", "credits" or "license" for more inf.
2020-12-30 15:43:02
5069
原创 flink实时任务因jedis连接池导致的任务阻塞问题
问题现象有个flink实时任务,读kafka和redis,处理完后写redis。flink实时任务运行一段时间后,就阻塞了,有时间几个小时,有时一两天后。任务看起来正常是正常的,但已经不读kafka了,checkpoint也失败。看日志,kafka一直WARN,提示Marking the coordinator xxx dead.原因分析第1步刚开始以为是kafka的问题,导致了任务阻塞。于是寻找解决办法,也有人遇到类似的问题,但办法不管用。后面了解到kafka集群版本之前是
2020-12-08 15:39:52
1997
原创 to_sql写pg性能问题跟踪解决
1. 问题描述最近有部分数据,从原来写mysql实例,改成写pg实例,用pandas.DataFrame.to_sql方法。期间发现,同样的数据写mysql和pg,差异相当大10万+数据量,mysql 1-3秒,pg 2-3分钟40万+数据量,mysql 5-8秒,pg 9-10分钟写pg代码如下engine = create_engine('postgresql://use:password@host:port/database')connect = engine.connect
2020-11-26 18:16:08
1050
原创 gcc编译
最近下载了10.2.0版本的gcc进行编译,执行./configure时报错checking build system type... x86_64-unknown-linux-gnuchecking host system type... x86_64-unknown-linux-gnuchecking target system type... x86_64-unknown-linux-gnuchecking for a BSD-compatible install... /usr/bin/
2020-11-13 12:54:12
1153
原创 LLVM+Clang编译安装卸载
我下载的是最新版本的代码,LLVM+Clang编译安装比较耗硬件资源,8核16G内存300G硬盘,硬盘是分两块,一块100G,另一块是200G。遇到几次内存和磁盘不够的问题,一一解决,下面是我的编译安装步骤和遇到的一些过程。前期准备工作1. 安装svnyum install subversion2. 升级cmake,升级到3.0以上版本。[root@VM-100-213-centos ~]# cmake --versioncmake version 3.9.2CMake
2020-11-12 16:51:02
7031
1
原创 mysql 8.0.21用户及权限操作
删除用户drop user 'azkaban'@localhost;创建用户create user 'azkaban'@'%' identified by 'azkaban';授权用户grant all privileges on azkaban.* to 'azkaban'@'%';刷新操作flush privileges;查看权限SELECT DISTINCT CONCAT('User: ''',user,'''@''',host,''';') AS ...
2020-11-05 20:19:18
399
原创 thriftpy依赖安装问题
安装第三方库的时候,依赖于thriftpy,报错如下Building wheel for thriftpy (setup.py) ... error ERROR: Command errored out with exit status 1: command: /data/home/leonlai/miniconda3/bin/python -u -c 'import sys, setuptools, tokenize; sys.argv[0] = '"'"'/tmp/pip-install...
2020-11-05 16:51:16
1363
原创 flink日志问题
flink实时任务,使用了debug,但taskManager上运行的任务一直没有debug级别的日志,只有info日志。最终回到flink配置,弄清flink/conf下面的日志配置文件作用log4j.properties:在yarn模式下,jobManager和taskManager上用的log配置都依赖于它!log4j-cli.properties:flink run启动时的日志依赖于该配置log4j-yarn-session.properties:用yarn-session.sh启
2020-10-21 10:47:23
4299
原创 解决jedis密码为空问题
问题代码如下FlinkJedisPoolConfig flinkJedisPoolConfig = new FlinkJedisPoolConfig.Builder() .setHost("127.0.0.1") .setPort(6379) .setPassword("") .setTimeout(2000) .setMaxTotal(200) .setMaxIdle(10) .setM.
2020-09-23 20:46:54
3100
原创 flink任务读取资源文件问题
问题描述写一个flink实时任务,任务启动时解析资源目录下的xml文件。代码写好了,测试代码运行也ok,但一提交到集群运行的时候,就提示找不到文件。目录结构如下示例代码如下try { SAXReader saxReader = new SAXReader(); URL url = this.getClass().getResource("/cjm.xml"); File inputXml = new File(url.getFile());
2020-09-23 10:28:36
2805
1
原创 实时任务数据丢失
1. 背景描述flink实时任务:从kafka集群读取源数据 从redis定期全量拉取用户白名单,然后进行广播 源数据connect白名单数据,源数据根据白名单数据进行过滤处理 过滤处理完后的数据,http推送、写redis、写log等2. 问题分析上线验证的时候,有些数据丢失,而且比较频繁,分析可能原因:kafka源数据丢失。这个有可能,但是小概率事件,不应该那么频繁出现。 redis拉取白名单后广播操作。这个有可能,需要重点排查。 过滤以及数据处理。这个不太可能,可以添加日志
2020-09-16 14:46:10
437
原创 解决java和scala的Tuple混用问题
背景简述平时日常数据开发主要用idea,确实挺强大。近日写了个flink任务,非广播流和广播流合并,然后过滤处理。处理逻辑都很通用,大概是这样:BroadcastConnectedStream的process调用了WhitelistBroadcastProcess类,该类继承BroadcastProcessFunction,并实现processElement和processBroadcastElement方法,分别处理广播流和非广播流。问题描述上图中红色波浪线提示错误Cannot
2020-09-11 09:04:56
1855
原创 解决flink提交任务时的部分问题
启动flink任务时,报错如下SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/Users/leonlai/Documents/env/flink-1.9.1/lib/slf4j-log4j12-1.7.15.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J: Found binding in [jar:file:/Users
2020-08-22 23:43:39
9387
1
原创 解决写kafka数据时LEADER_NOT_AVAILABLE错误
自己的机器搭建kafka环境,测试过程中发现,写数据的时候一直报错(base) leonlai@LEONLAI-MB0 kafka_2.11-0.9.0.1 % ./bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test_topicaa[2020-08-22 00:29:52,814] WARN Error while fetching metadata with correlation id 0 : {tes
2020-08-22 00:44:43
7927
原创 编译flink1.11版本问题总结
1.解决npm问题1.1 报错如下[ERROR] Failed to execute goal com.github.eirslett:frontend-maven-plugin:1.6:npm (npm install) on project flink-runtime-web_2.11: Failed to run task: 'npm ci --cache-max=0 --no-save --registry=https://registry.npm.taobao.org' failed..
2020-08-17 13:56:07
2650
原创 kafka-eagle和kafka server版本不一致问题
kafka版本太多,目前最新的已经到2.6.0,但很多线上用的可能还用0.9版本,以往经验,不同版本api存在不少兼容性问题。另外kafka没有实现类似支持es的kibana管理工具,纯靠命令行很蛋疼。在上一家公司的时候,kafka+kafka-eagle配合使用挺方便,对kafka-eagle进行二次开发后,能满足大多数需求。前提是kafka集群和kafka-eagle都是自己搭建的,kafka-eagle依赖的版本与kafka集群一致。现在公司的kafka集群使用的版本是0.9版本,不是我想动就
2020-08-12 11:08:28
2295
原创 flink任务重启原因分析
有个flink实时任务,上周升级了版本,早上过来看下任务,发现任务凌晨4点左右的时候重启了。flink ui查看异常日志如下异常日志2020-08-10 04:07:23org.apache.flink.runtime.io.network.netty.exception.RemoteTransportException: Connection unexpectedly closed by remote task manager '/9.150.12.175:39365'. This m.
2020-08-10 17:41:00
12990
1
原创 解决idea打开某个项目卡住的问题
今天在idea上调试某个项目,结果idea崩了,一直打不开,重启重装也不行,应该是重装不彻底不干净。寻找了网上的一些解决方法,都不管用。既然网上上解决方法也不行,重装也不行,那就老老实实地解决问题吧。具体现象是这样的:崩在某个项目,强制退出再重新打开,还是卡在这个项目,这时候右键点击程序坞idea图标,还可以打开最近已经打开过的项目,也可以正常关闭,但是崩掉的项目还是卡住。强制退出idea重新启动,还是卡在崩掉的那个项目,让人崩溃。既然最近打开的项目都可以打开,唯独崩掉的项目不能打开,那应该是ide
2020-08-07 20:41:46
6781
1
原创 mvn编译提示:source 1.5 中不支持 diamond 运算符
1. 最近新换了一个mac os,重新安装环境,用新装的idea随便编译一个项目就报错,如下% ./build.sh[INFO] Scanning for projects...[INFO] ------------------------------------------------------------------------[INFO] Reactor Build Order:[INFO][INFO] ke ...
2020-08-06 19:57:42
1408
原创 idea下载安装plugins总是
问题:点击左侧Plugins按钮,Marketplace搜索不出插件解决:Appearance & Behavior->HTTP Proxy,勾选Auto-detect proxy settings,然后重启idea效果:重启idea,重新点击Plugins,现在已经可以正常搜索下载安装插件了...
2020-07-30 10:58:33
320
原创 java对象内存分配与回收策略
java对象内存的分配,从概念上讲都应该分配在堆上分配,实际有可能经过即时编译后被拆散为标量类型并间接地在栈上分配。新生对象通常分配在新生代中,少数情况下可能会直接分配在老年代(比如对象大小超过一定阀值)。对象的分配规则并不是固定的,取决于虚拟机使用哪一种垃圾收集器,以及虚拟机中与内存相关的参数设定。使用HotSpot虚拟机,以客户端模式运行,使用Serial+Serial Old客户端默认收集器组合的内存分配和回收策略,最基本的几条内存分配原则。1. 对象优先在Eden分配大多数情况下,对象在
2020-07-05 16:25:05
3046
原创 低延迟垃圾收集器:Shenandoah和ZGC
1. 低延迟垃圾收集器衡量垃圾器的三个重要指标:内存占用 吞吐量 延迟这三个方面共同构成“不可能三角”,要在这三个方面同时具有卓越表现的收集器是非常困难的,甚至是不可能的,一款优秀的收集器最多同时可以达到其中两项。低延迟收集器主要有Shenadoah和ZGC,它们有几个特点几乎整个工作过程都是并发的,只有初始标记、最终标记阶段有短暂停顿 停顿时间基本是固定的,与堆的容量、堆中对象的数量不成正比例关系 Shenadoah和ZGC都可以在任意管理的(ZGC只能管理4TB以内的堆)堆容量
2020-07-05 15:38:10
891
原创 grafana+influxdb监控告警配置
grafana和influxdb的文章不少,但是grafana上的告警配置,很多不全面不完整。建议参考优质文章:grafana高可用和Alerting(七)
2020-07-02 10:45:28
1783
原创 Spark 3.0新特性介绍
1. 自适应查询优化这是 Databricks 和Intel 中国团队在做的项目(https://tinyurl.com/y3rjwcos),基于已完成的执行计划节点的统计数据,优化剩余的查询执行计划,它的特点是:减少 Reducer 的数量 将 Sort Merge Join 转换为 Broadcast Hash Join 处理数据倾斜2.动态分区修剪静态分区裁剪优化动态分区裁剪优化spark.sql.optimizer.dynamicPartitionPruning..
2020-06-29 14:16:02
4013
原创 Hive 3.0新特性简介
1. 执行引擎MR变更为TEZApache TEZ是一个针对Hadoop数据处理应用程序的分布式计算框架,基于Yarn且支持DAG作业的开源计算框架。 Apache TEZ的核心思想是将Map和Reduce拆分成若干子过程,即Map被拆分成Input、Processor、Sort、Merge和Output, Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等,分解后可以灵活组合成一个大的DAG作业。 Apache TEZ提供了较低级别的抽象,为了
2020-06-29 10:51:36
8114
原创 python操作influxdb插入数据失败问题
最近做实时和离线数据监控,对比离线和实时的数据量是否一致,用python调用第三方influxdb包插入到influxdb时序数据库,碰到一些问题。influxdb的表叫measurements,不需要创建,只要插入数据,会自动生成。python插入inluxdb代码大概如下from influxdb import InfluxDBClientclient = InfluxDBClient(host='xxx.xxx.xxx.xxx', port=8086, username='', pas
2020-06-23 16:13:59
1986
原创 hbase优点和缺点及部分优化
HBase是一个建立在HDFS之上的分布式,提供高可靠性,高性能,列存储,可伸缩,实时读写NoSQL的数据库系统。HBase优点支持大数据:一个表可以有上十亿行,上百万列 列式存储:面向列(簇)的存储和权限控制,列(簇)独立检索 记录稀疏:对于为空(null)的列并不占用内存空间,因此,表可以设计的非常稀疏,节省空间 支持多版本:每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时的时间戳 半结构化或非结构化数据:对于数据结构字段不够确定或杂乱无章非常难按一个概念去进行抽
2020-06-23 09:44:16
4447
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅