- 博客(8)
- 收藏
- 关注
原创 Pytorch lstm中batch_first 参数理解使用
可以选择permute函数解决:batch_x = batch_x.permute((1, 0, 2))此方式将一个批次内的shape从例子中的 [2,3] 转置为[3, 2] ,可以在不影响训练速度的原则下解决问题
2022-10-16 20:32:58
3475
1
原创 记一次Flink消费kafka数据恢复机制
现在我有一个数据架构:Flink消费kafka,开启windows窗口聚合存ES。某天的晚上Flink挂机,未加报警机制,3小时后才发现。如何才能把丢失的Kafka数据补充回来?大家都知道Flink可以配置Kafka对offset的处理方式:1)setStartFromLatest //从最后一个Kafka offset开始消费2)setStartFromGroupOffsets //从你的group对应消费的最后一个offset后的数据进行消费3)setStartFromEarliest.
2020-06-05 18:19:13
1913
原创 Flink问题排查-Buffer pool is destroyed.
近期Flink 作业偶发报错:java.lang.IllegalStateException: Buffer pool is destroyed.通过GOOGLE和百度查询结果有:1、jdk问题:发送数据源方jdk版本高于Flink使用方,需要提高jdk版本解决2、数据源问题(某个数据源为空),由于这个报错往往与"Could not forward element to next operator"同时存在,很可能会考虑到数据源问题上去,毕竟数据解析失败、使用EventTimeWindows拿不到事件
2020-06-05 18:18:04
10217
原创 Flink窗口统计海量数据至ElasticSearch
一、背景: 实现效果数据实时报表二、历史解决方案: 1) 前端发生数据事件时,调用封装好的JS方法,抛出kafka消息,服务端使用Spark 微批消费Kafka数据,使用Redis的incr方法记录每个不同的数据key的发生次数。 2)开启java job程序定时读取redis的打点数据,根据不同维度写入Mysql,实现实时数据报表。三、不足之处: 1)Spark不是真正的流处理,数据非真正实时,使用job定时读取Redis数据也相当古板,...
2020-05-28 09:19:31
749
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人