零基础学Flink：实时热销榜Top5（案例），java开发项目经理面试题

最新推荐文章于 2024-05-12 03:32:24 发布

2401_84446712

最新推荐文章于 2024-05-12 03:32:24 发布

阅读量455

点赞数 19

分类专栏： 2024年程序员学习文章标签： flink java 大数据

本文链接：https://blog.csdn.net/2401_84446712/article/details/137984886

版权

2024年程序员学习专栏收录该内容

21 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Java开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Java开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024b （备注Java）

正文

}

然后是定义输出窗口结果

/** 用于输出窗口的结果 */

//IN, OUT, KEY, W extends Window

public static class WindowResultFunction implements WindowFunction<Long, OrderView, String, TimeWindow> {

@Override

public void apply(

String key, // 窗口的主键

TimeWindow window, // 窗口

Iterable aggregateResult, // 聚合函数的结果

Collector collector // 输出类型为 OrderView

) throws Exception {

Long count = aggregateResult.iterator().next();

collector.collect(OrderView.of(key, window.getEnd(), count));

}

public static class OrderView {

public String itemId; // 商品ID

public long windowEnd; // 窗口结束时间戳

public long allsum; // 商品的点击量

public static OrderView of(String itemId, long windowEnd, long allsum) {

OrderView result = new OrderView();

result.itemId = itemId;

result.windowEnd = windowEnd;

result.allsum = allsum;

return result;

}

@Override

public String toString() {

return “OrderView{” +

“itemId='” + itemId + ‘\’’ +

“, windowEnd=” + windowEnd +

“, viewCount=” + allsum +

‘}’;

}

经过上述的步骤，我们得到了一个经过聚合的时间窗口数据，接下来只需取再按时间分组并取到前五的数据就大功告成了。使用 ProcessFunction 实现一个自定义的 TopN 函数 TopNHot 来计算排名前5的商品，并将排名结果格式化成字符串，便于后续输出。

DataStream topNHots = windowedData

.keyBy(“windowEnd”)

.process(new TopNHot(5));

ProcessFunction 是 Flink 提供的一个 low-level API，用于实现更高级的功能。它主要提供了定时器 timer 的功能（支持EventTime或ProcessingTime）。本案例中我们将利用 timer 来判断何时收齐了某个 window 下所有商品的点击量数据。由于 Watermark 的进度是全局的，在 processElement 方法中，每当收到一条数据（OrderView），我们就注册一个 windowEnd+1 的定时器（Flink 框架会自动忽略同一时间的重复注册）。windowEnd+1 的定时器被触发时，意味着收到了windowEnd+1的 Watermark，即收齐了该windowEnd下的所有商品窗口统计值。我们在 onTimer() 中处理将收集的所有商品及点击量进行排序，选出 TopN，并将排名信息格式化成字符串后进行输出。

这里我们还使用了 ListState<OrderView> 来存储收到的每条 OrderView消息，保证在发生故障时，状态数据的不丢失和一致性。ListState 是 Flink 提供的类似 Java List 接口的 State API，它集成了框架的 checkpoint 机制，自动做到了 exactly-once 的语义保证。

public static class TopNHot extends KeyedProcessFunction<Tuple, OrderView, String> {

private final int topSize;

public TopNHot(int topSize) {

this.topSize = topSize;

}

// 用于存储商品与点击数的状态，待收齐同一个窗口的数据后，再触发 TopN 计算

private ListState orderState;

@Override

public void open(Configuration parameters) throws Exception {

super.open(parameters);

// 状态的注册

ListStateDescriptor itemsStateDesc = new ListStateDescriptor<>(

“orderState-state”,

OrderView.class);

orderState = getRuntimeContext().getListState(itemsStateDesc);

}

@Override

public void processElement(

OrderView input,

Context context,

Collector collector) throws Exception {

// 每条数据都保存到状态中

orderState.add(input);

// 注册 windowEnd+1 的 EventTime Timer, 当触发时，说明收齐了属于windowEnd窗口的所有商品数据

context.timerService().registerEventTimeTimer(input.windowEnd + 1);

}

@Override

public void onTimer(

long timestamp, OnTimerContext ctx, Collector out) throws Exception {

// 获取收到的所有商品销售量

List allItems = new ArrayList<>();

orderState.get().forEach(it->allItems.add(it));

// 提前清除状态中的数据，释放空间

orderState.clear();

// 按照销售额从大到小排序

allItems.sort((x1,x2)-> (int) (x1.allsum - x2.allsum));

// 将排名信息格式化成 String, 便于打印

StringBuilder result = new StringBuilder();

result.append(“====================================\n”);

result.append(“时间: “).append(new Timestamp(timestamp-1)).append(”\n”);

for (int i=0;i<topSize && i<allItems.size();i++) {

OrderView currentItem = allItems.get(i);

// No1: 商品ID=12224 销售额=2413

result.append(“No”).append(i+1).append(“:”)

.append(" 商品ID=").append(currentItem.itemId)

.append(" 销售额=").append(currentItem.allsum)

.append(“\n”);

}

result.append(“====================================\n\n”);

out.collect(result.toString());

}

下面是完整代码：

package cn.flinkhub.topndemo;

import org.apache.flink.api.common.functions.AggregateFunction;

import org.apache.flink.api.common.functions.JoinFunction;

import org.apache.flink.api.common.serialization.DeserializationSchema;

import org.apache.flink.api.common.state.ListState;

import org.apache.flink.api.common.state.ListStateDescriptor;

import org.apache.flink.api.common.typeinfo.TypeHint;

import org.apache.flink.api.common.typeinfo.TypeInformation;

import org.apache.flink.api.java.functions.KeySelector;

import org.apache.flink.api.java.tuple.*;

import org.apache.flink.api.java.utils.ParameterTool;

import org.apache.flink.configuration.Configuration;

import org.apache.flink.streaming.api.TimeCharacteristic;

import org.apache.flink.streaming.api.datastream.DataStream;

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

import org.apache.flink.streaming.api.functions.KeyedProcessFunction;

import org.apache.flink.streaming.api.functions.timestamps.AscendingTimestampExtractor;

import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor;

import org.apache.flink.streaming.api.functions.windowing.WindowFunction;

import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;

import org.apache.flink.streaming.api.windowing.time.Time;

import org.apache.flink.streaming.api.windowing.windows.TimeWindow;

import org.apache.flink.streaming.api.windowing.windows.Window;

import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer010;

import org.apache.flink.util.Collector;

import java.io.IOException;

import java.sql.Timestamp;

import java.util.*;

public class App {

public static void main(String[] args) throws Exception {

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

Map properties= new HashMap();

properties.put(“bootstrap.servers”, “localhost:9092”);

properties.put(“group.id”, “test”);

properties.put(“enable.auto.commit”, “true”);

properties.put(“auto.commit.interval.ms”, “1000”);

properties.put(“auto.offset.reset”, “earliest”);

properties.put(“session.timeout.ms”, “30000”);

// properties.put(“key.deserializer”, “org.apache.kafka.common.serialization.StringDeserializer”);

// properties.put(“value.deserializer”, “org.apache.kafka.common.serialization.StringDeserializer”);

properties.put(“topicOrder”, “order”);

properties.put(“topicRate”, “rate”);

ParameterTool parameterTool = ParameterTool.fromMap(properties);

FlinkKafkaConsumer010 consumer010Rate = new FlinkKafkaConsumer010(

parameterTool.getRequired(“topicRate”), new DeserializationSchema() {

@Override

public TypeInformation getProducedType() {

return TypeInformation.of(new TypeHint<Tuple3<Long,String,Integer>>(){});

//return TypeInformation.of(new TypeHint(){});

}

@Override

public Tuple3<Long,String,Integer> deserialize(byte[] message) throws IOException {

String[] res = new String(message).split(“,”);

Long timestamp = Long.valueOf(res[0]);

String dm = res[1];

Integer value = Integer.valueOf(res[2]);

return Tuple3.of(timestamp,dm,value);

}

@Override

public boolean isEndOfStream(Object nextElement) {

return false;

}

}, parameterTool.getProperties());

FlinkKafkaConsumer010 consumer010Order = new FlinkKafkaConsumer010(

parameterTool.getRequired(“topicOrder”), new DeserializationSchema() {

@Override

public TypeInformation getProducedType() {

return TypeInformation.of(new TypeHint<Tuple5<Long,String,Integer,String,Integer>>(){});

}

@Override

public Tuple5<Long,String,Integer,String,Integer> deserialize(byte[] message) throws IOException {

//%d,%s,%d,%s,%d

String[] res = new String(message).split(“,”);

Long timestamp = Long.valueOf(res[0]);

String catlog = res[1];

Integer subcat = Integer.valueOf(res[2]);

String dm = res[3];

Integer value = Integer.valueOf(res[4]);

return Tuple5.of(timestamp,catlog,subcat,dm,value);

}

@Override

public boolean isEndOfStream(Object nextElement) {

return false;

}

}, parameterTool.getProperties());

env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);

env.setParallelism(1);

DataStream<Tuple3<Long,String,Integer>> rateStream = env.addSource(consumer010Rate);

DataStream<Tuple5<Long,String,Integer,String,Integer>> oraderStream = env.addSource(consumer010Order);

long delay = 1000;

DataStream<Tuple3<Long,String,Integer>> rateTimedStream = rateStream.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<Tuple3<Long,String,Integer>>(Time.milliseconds(delay)) {

@Override

public long extractTimestamp(Tuple3<Long, String, Integer> element) {

return (Long)element.getField(0);

}

});

DataStream<Tuple5<Long,String,Integer,String,Integer>> oraderTimedStream = oraderStream.assignTimestampsAndWatermarks(new AscendingTimestampExtractor<Tuple5<Long,String,Integer,String,Integer>>() {

@Override

public long extractAscendingTimestamp(Tuple5 value) {

return (Long)value.getField(0);

}

});

DataStream<Tuple9<Long,String,Integer,String,Integer,Long,String,Integer,Integer>> joinedStream = oraderTimedStream.join(rateTimedStream).where(new KeySelector<Tuple5<Long,String,Integer,String,Integer>,String>(){

@Override

public String getKey(Tuple5<Long,String,Integer,String,Integer> value) throws Exception {

return value.getField(3).toString();

}

}).equalTo(new KeySelector<Tuple3<Long,String,Integer>,String>(){

@Override

public String getKey(Tuple3<Long,String,Integer> value) throws Exception {

return value.getField(1).toString();

}

}).window(TumblingEventTimeWindows.of(Time.seconds(10)))

.apply(new JoinFunction<Tuple5<Long,String,Integer,String,Integer>, Tuple3<Long,String,Integer>,Tuple9<Long,String,Integer,String,Integer,Long,String,Integer,Integer>>() {

@Override

public Tuple9<Long,String,Integer,String,Integer,Long,String,Integer,Integer> join( Tuple5<Long,String,Integer,String,Integer> first, Tuple3<Long,String,Integer>second) throws Exception {

Integer res = (Integer)second.getField(2)*(Integer)first.getField(4);

return Tuple9.of(first.f0,first.f1,first.f2,first.f3,first.f4,second.f0,second.f1,second.f2,res);

}

});

DataStream<Tuple9<Long,String,Integer,String,Integer,Long,String,Integer,Integer>> joinedTimedStream = joinedStream.assignTimestampsAndWatermarks(new AscendingTimestampExtractor<Tuple9<Long,String,Integer,String,Integer,Long,String,Integer,Integer>>() {

@Override

public long extractAscendingTimestamp(Tuple9<Long,String,Integer,String,Integer,Long,String,Integer,Integer> element) {

return element.f0;

}

});

DataStream windowedData = joinedTimedStream.keyBy(new KeySelector<Tuple9<Long,String,Integer,String,Integer,Long,String,Integer,Integer>,String>(){

@Override

public String getKey(Tuple9<Long,String,Integer,String,Integer,Long,String,Integer,Integer> value) throws Exception {

return value.f1+value.f2;

}

}).timeWindow(Time.seconds(30), Time.seconds(10))

.aggregate(new SumAgg(), new WindowResultFunction());

DataStream topNHots = windowedData

.keyBy(“windowEnd”)

.process(new TopNHot(5));

topNHots.print();

env.execute(“done!”);

}

public static class SumAgg implements AggregateFunction<Tuple9<Long,String,Integer,String,Integer,Long,String,Integer,Integer>, Long, Long> {

@Override

public Long createAccumulator() {

return 0L;

}

@Override

public Long add(Tuple9<Long,String,Integer,String,Integer,Long,String,Integer,Integer> value, Long acc) {

return acc + value.f8;

}

@Override

public Long getResult(Long acc) {

return acc;

}

@Override

public Long merge(Long acc1, Long acc2) {

return acc1 + acc2;

}

最后

关于面试刷题也是有方法可言的，建议最好是按照专题来进行，然后由基础到高级，由浅入深来，效果会更好。当然，这些内容我也全部整理在一份pdf文档内，分成了以下几大专题：

Java基础部分

算法与编程

数据库部分

流行的框架与新技术（Spring+SpringCloud+SpringCloudAlibaba）

这份面试文档当然不止这些内容，实际上像JVM、设计模式、ZK、MQ、数据结构等其他部分的面试内容均有涉及，因为文章篇幅，就不全部在这里阐述了。

作为一名程序员，阶段性的学习是必不可少的，而且需要保持一定的持续性，这次在这个阶段内，我对一些重点的知识点进行了系统的复习，一方面巩固了自己的基础，另一方面也提升了自己的知识广度和深度。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024b （备注Java）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
-I5fcSAa8-1713555965843)]

算法与编程

[外链图片转存中…(img-Dq1MQm66-1713555965843)]

数据库部分

[外链图片转存中…(img-rcY86isC-1713555965844)]

流行的框架与新技术（Spring+SpringCloud+SpringCloudAlibaba）

[外链图片转存中…(img-T26Gy9kP-1713555965844)]

这份面试文档当然不止这些内容，实际上像JVM、设计模式、ZK、MQ、数据结构等其他部分的面试内容均有涉及，因为文章篇幅，就不全部在这里阐述了。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024b （备注Java）
[外链图片转存中…(img-9zsN2cQ7-1713555965844)]

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

2401_84446712

关注

19
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
零基础学Flink：实时热销榜Top5（案例），java开发项目经理面试题

关于面试刷题也是有方法可言的，建议最好是按照专题来进行，然后由基础到高级，由浅入深来，效果会更好。Java基础部分算法与编程数据库部分流行的框架与新技术（Spring+SpringCloud+SpringCloudAlibaba）这份面试文档当然不止这些内容，实际上像JVM、设计模式、ZK、MQ、数据结构等其他部分的面试内容均有涉及，因为文章篇幅，就不全部在这里阐述了。
复制链接

扫一扫