藤井大旋風
码龄6年
关注
提问 私信
  • 博客:20,427
    20,427
    总访问量
  • 14
    原创
  • 2,180,364
    排名
  • 2
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2018-10-19
博客简介:

weixin_43466909的博客

查看详细资料
个人成就
  • 获得8次点赞
  • 内容获得1次评论
  • 获得24次收藏
创作历程
  • 14篇
    2022年
成就勋章
兴趣领域 设置
  • 大数据
    jsonsqldatabasemysqlhbasehadoophiverediszookeepersparkflumekafkabig dataflinknosql数据库kylinhdfsmapreducesqoop大数据数据仓库etl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

FlinkSQL实现滚动窗口和滑动窗口

实现滚动窗口package cn._51doit.flink.day11;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.typeinfo.Types;import org.apache.flink.streaming.api.datastream.DataStream;import org.apache.flink.streaming.api.datast
原创
发布博客 2022.04.10 ·
2610 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

数据流窗口Join(双流join)

两个数据流都源源不断地发生变化,而且数据流之间存在着某种联系,那么就可以用双流join将两个数据流关联起来。这里用异步IO可以吗?异步IO主要针对其中一个流固定不变(如geo字典库),并一个流在变化。用广播状态可以吗?广播状态只适用于数据量少和数据量变化不频繁地情况。要实现两个数据流的关联,就需要创造两个数据流在同一时间能出现在同一个空间(同一subtask)的条件,而不是像两个流星一样转瞬即逝。首先我们可以按照要join的条件进行keyBy,让数据流进入到同一个分区;其次我们可以划窗口,让两个流数据放
原创
发布博客 2022.04.07 ·
1133 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

keyedState状态的存活时间TimeToLive(TTL)

keyedState状态的存活时间TimeToLive(TTL)KeyedState_Only可以设置状态存活指定的时间,超过指定的时间,状态会被清除ValueState的TTLpackage cn._51doit.flink.day07;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.functions.RichMapFunction;
原创
发布博客 2022.04.06 ·
678 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Flink的keyedState

State状态StateBackEndCheckPointing重启策略CheckPointingMode重启策略详解固定次数的重启策略package cn._51doit.flink.day06;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.restartstrategy..
原创
发布博客 2022.04.05 ·
2515 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Flink的Window

flink中的三种时间flink中的windowwindow概述window类型适用场景:主要是用来做变化趋势的用的不多GlobalWindow(CountWindow)Nonkeyed的GlobalWindow(CountWindowAll)package cn._51doit.flink.day05;import org.apache.flink.streaming.api.datastream.AllWindowedStream;im
原创
发布博客 2022.04.04 ·
2326 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

flink算子链

算子之间没有shuffle且并行度一样,则会形成operator chainenv.disableOperatorChaining(); 全局禁用算子链package cn._51doit.flink.day04;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.functions.MapFunction;import org.apache..
原创
发布博客 2022.04.03 ·
3001 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

Kafka的API

Kafka的API<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>2.7.2</version> </dependency>Producer API消息发送流程Kafka的Producer发送消息采用异步发送的方式。在消息发...
原创
发布博客 2022.04.02 ·
460 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Flink理论:并行度、槽位分配、任务与子任务

本文图片来源网络,侵删并行度( Parallelism) 一个特定算子的子任务( subtask)的个数被称之为其并行度( parallelism)。 一般情况下,一个 stream的并行度,可以认为就是其所有算子中最大的并行度。 TaskManager 和 Slots Flink 中每一个TaskManager都是一个JVM进程,它可能会在独立的线程上执行一个或多个子任务 为了控制一个TaskManager能接收多少个 task, TaskManager...
原创
发布博客 2022.04.01 ·
1297 阅读 ·
0 点赞 ·
1 评论 ·
3 收藏

Flink程序与数据流、数据传输与数据链

本文所用图来源网络,侵删程序与数据流(DataFlow) 所有的Flink程序都是由三部分组成的: Source 、 Transformation 和 Sink。 Source 负责读取数据源, Transformation 利用各种算子进行处理加工, Sink负责输出。 在运行时, Flink上运行的程序会被映射成“逻辑数据流”( dataflows)。 每一个dataflow以一个或多个sources开始以一个或多个sinks结束。 dataflow 类似于任意.
原创
发布博客 2022.04.01 ·
393 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Kafka生产者

分区写入Kafka策略为什么要分区? 方便在集群中扩展,每个Partition可以通过调整以适应它所在的机器,而一个topic 又可以有多个Partition组成,因此整个集群就可以适应任意大小的数据了; 可以提高并发,因为可以以Partition为单位读写了。 怎么分区?将producer发送的数据封装成一个ProducerRecord对象。 既没有partition值又没有key值的情况下,第一次调用时随机生成一个整数(后面每次调用在这个整数上自增),将这个值与topi
原创
发布博客 2022.03.31 ·
1271 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

生成全局用户标识:ods2dwd

在登录状态下,日志中会采集到用户的登录 id(account),可以做到用户身份的精确标识;而在匿名状态下,日志中没有采集到用户的登录 id如何准确标识匿名状态下的用户,是一件棘手而又重要的事情;
原创
发布博客 2022.03.30 ·
678 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scala字符串&字符串模板输出

基本语法(1)字符串,通过+号连接(2)printf用法:字符串,通过%传值。(3)字符串模板(插值字符串) : 通过$获取变量值object Test02_String { def main(args: Array[String]): Unit = { //(1)字符串,通过+号连接 val name: String = "alice" val age: Int = 22 println(age + "years old " + name + "...
原创
发布博客 2022.03.29 ·
817 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

业务域订单表的拉链表开发

需求业务中的订单表不可避免地,每一日都是有增量的,而且旧的订单状态也可能被更新。于是我们找到了拉链表这个媒介来来保存订单的历史,更新、添加增量,既节省了空间,又可以很直观地过滤出每一天的数据状态(历史)。建表&模型设计订单拉链表create table dwd.mall_order_zip( id bigint ,amt decimal(10,2) ,status ...
原创
发布博客 2022.03.29 ·
487 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

运行hive脚本报错:java.lang.ClassNotFoundException: Class org.apache.hive.hcatalog.data.JsonSerDe not found

出现error过程描述:创建一个Hive表并对其添加一个JSON格式匹配ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'原因是缺少hive-hcatalog-core-3.1.2.jar的包尝试以下方式将~/hive-3.1.2/hcatalog/share/hcatalog/hive-hcatalog-core-3.1.2.jar 放到hive的lib目录下~为你自己机器的hive安装目录依然报错
原创
发布博客 2022.03.28 ·
2762 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏