flink
文章平均质量分 69
flink
bitcarmanlee
这个作者很懒,什么都没留下…
展开
-
kafka为什么速度快总结
kafka被广泛运用在各个系统中,被用来充当消息的中间件与数据总线的功能。而且我们都知道,kafka是基于磁盘存储的,但是描述kafka的形容词,最常见的经常有诸如速度快,延时小,吞吐量大这些,吞吐量能达到几十w甚至上百万每秒。而这些形容词,却与磁盘来说是格格不入的。所以kafka为什么快就成了一个经典的问题,下面我们就来进行初步总结。原创 2022-10-08 16:45:46 · 2071 阅读 · 0 评论 -
flink kafka消费pojo类型数据实战详解
首先,我们定义一个pojo类}}}}}@Override"}";}}我们定义了一个User类,该类有两个字段name与age。需要注意的是,该类必须要包含有默认的构造函数,否则后续代码使用过程中会出现问题,具体可以参考如下链接/***/@Override}@Overridetry {}}@Override}}上面类的作用,是将User对象序列化的过程,方便后面的数据传输。上面使用了ObjectMapper类进行序列化,需要引入如下依赖。原创 2022-09-27 16:13:16 · 1474 阅读 · 0 评论 -
Flink+kafka实时统计本地环境搭建与代码实战
flink经常用来消费上游kafka的数据,而kafka又依赖zookeeper进行。所以在进行测试之前,先要准备好本地的zookeeper与kafka环境。在pom.xml文件中,先添加所需要的依赖。主要包括flink相关的依赖已经kafka相关的依赖,flink版本1.7.2,kafka相关版本0.9。通过命令行事先准备了一个名为test的topic,然后实现producer往里面写数据。稍微需要注意的是,序列化反序列化使用的类型,均为StringSerializer。原创 2022-09-26 15:00:00 · 1708 阅读 · 0 评论 -
flink keyby指定key方式详解
这种操作在各种大数据计算引擎中都非常常见,比如最早的mapreduce,从map阶段到reduce阶段,就是通过shuffle操作将具有相同key的数据分配到同一个reduce端进行处理。比如如果数据是个比较复杂的嵌套结构Tuple2,如果我们想对内部嵌套的Tuple2的第一个字段进行keyby操作,就无法通过字段号来操作,这个时候我们可以通过字段名的方式来进行代替。先定义个内部静态类,静态类包含有两个字段,分别为word与count。原创 2022-09-17 12:40:38 · 5583 阅读 · 0 评论 -
flink groupby keyby区别
spark中我们经常使用groupby算子对数据进行聚合。flink中,不仅有groupby算法,还有keyby算子,那么这两者的区别在哪里?上面是stream版的wordcount操作,对于DataStream数据,使用的则是keyby算子。上面可以认为是batch版的wordcount操作,对于DataSet使用的就是groupBy操作。groupby是用在DataSet系列API中,Table/SQL等操作也是使用groupby。keyby是用在DataStream系列API中。原创 2022-09-17 10:59:07 · 1681 阅读 · 0 评论 -
Flink流式计算在节省资源方面的简单分析
本文转载自小米大数据部王加胜老师内部作品,并获得加胜老师转载授权。本文会在原文基础上,删除一些公司内部不能泄露的业务数据。1.小米流式计算发展历程小米在流式计算方面经历了Storm、Spark Streaming和Flink的发展历程;从2019年1月接触Flink到现在,已经过去了大半年的时间了。对Flink的接触越深,越能感受到它在流式计算方面的强大能力;无论是实时性、时间语义还是对状态计算的支持等,都让很多之前需要复杂业务逻辑实现的功能转变成了简洁的API调用。还有不断完善的Flink SQL功原创 2021-04-25 22:25:39 · 567 阅读 · 0 评论