噗呲噗呲咔咔-CSDN博客

原创 filebeat处理k8s docker模式下部署导致deviceid改变，进而导致重复消费问题

filebeat 重复消费问题解决

2024-05-08 17:40:28 424

原创 Gunicorn Gevent Worker中使用异步编程

Gunicorn Gevent Worker中使用异步编程

2023-12-18 22:41:46 456

原创 Pytorch lstm中batch_first 参数理解使用

可以选择permute函数解决:batch_x = batch_x.permute((1, 0, 2))此方式将一个批次内的shape从例子中的 [2,3] 转置为[3, 2] ，可以在不影响训练速度的原则下解决问题

2022-10-16 20:32:58 3475 1

原创 Flink消费Kafka数据自管理offset

Flink消费Kafka 自管理offsetFlin 消费kafka数据

2020-07-23 22:33:05 1042 3

现在我有一个数据架构：Flink消费kafka，开启windows窗口聚合存ES。某天的晚上Flink挂机，未加报警机制，3小时后才发现。如何才能把丢失的Kafka数据补充回来？大家都知道Flink可以配置Kafka对offset的处理方式：1）setStartFromLatest //从最后一个Kafka offset开始消费2）setStartFromGroupOffsets //从你的group对应消费的最后一个offset后的数据进行消费3）setStartFromEarliest.

2020-06-05 18:19:13 1913

原创 Flink问题排查-Buffer pool is destroyed.

近期Flink 作业偶发报错：java.lang.IllegalStateException: Buffer pool is destroyed.通过GOOGLE和百度查询结果有：1、jdk问题：发送数据源方jdk版本高于Flink使用方，需要提高jdk版本解决2、数据源问题(某个数据源为空)，由于这个报错往往与"Could not forward element to next operator"同时存在，很可能会考虑到数据源问题上去，毕竟数据解析失败、使用EventTimeWindows拿不到事件

2020-06-05 18:18:04 10217

原创 Flink窗口统计海量数据至ElasticSearch

一、背景：实现效果数据实时报表二、历史解决方案： 1）前端发生数据事件时，调用封装好的JS方法，抛出kafka消息，服务端使用Spark 微批消费Kafka数据，使用Redis的incr方法记录每个不同的数据key的发生次数。 2）开启java job程序定时读取redis的打点数据，根据不同维度写入Mysql,实现实时数据报表。三、不足之处： 1）Spark不是真正的流处理，数据非真正实时，使用job定时读取Redis数据也相当古板，...

2020-05-28 09:19:31 749

weixin_42285430的博客