- 博客(121)
- 资源 (5)
- 收藏
- 关注
原创 flink 状态管理
参考了下面2篇blog,也比较详细了:1.云栖上的,讲了state与checkpoint:https://blog.csdn.net/xorxos/article/details/808772662.简书上的,讲了state的状态,存储,以及每中state的状态要如何使用:https://www.jianshu.com/p/0cab0c12c5eb...
2020-06-19 22:56:07
175
原创 flink系列文章汇总
1.flink简介2.flink结构3.flink source and sink4.flink window5.flink watermark6.flink 状态管理7.flink checkpoint and savepoint8.flink on yarn9.flink cep10.flink sideput11.flink ttl12.flink runtime13.flink 可查询状态14.flink 延迟数据15.flink 延时监控
2020-06-19 22:40:17
228
原创 医疗数据之数据仓库解决方案
https://blog.csdn.net/zeng_sily/article/details/105320138?utm_source=app
2020-06-19 20:13:37
731
1
转载 flink window详解
内容概述:1.window的分类2.window组成:Window Assigner,trigger,Evictor3.案例参考:https://blog.csdn.net/u4110122855/article/details/81360381
2020-06-19 15:52:48
139
原创 kafka深入学习--源码
主要是一些资源汇总:参考我个人的有道云笔记链接:http://note.youdao.com/noteshare?id=547189fab8fdfee315dd724758a428ebhttps://blog.csdn.net/u013332124/category_9279305.html
2020-06-16 18:54:26
133
原创 UML常用的符号说明
1.继承2.实现3.关联4.聚合5.组合6.依耐http://www.uml.org.cn/oobject/201610282.asp
2020-06-15 21:44:53
505
原创 window下目录切换
1: 跳转到其他盘的子目录:步骤:a. cd 目录b. 盘符例子:C:\Users\xsemi02>cd D:\ARM C:\Users\xsemi02>D: D:\ARM>2. 直接跳转到另外一个盘的根目录:直接盘符 d:C:\Users\xsemi02>D: D:\>...
2020-06-15 12:43:54
134
原创 kafka的offset保存
1.offset保存在zk上参考:https://blog.csdn.net/weixin_30340353/article/details/950843442.offset保存在hbase上参考:https://www.cnblogs.com/mlxx9527/p/9391944.htmlkafka相关api请参考前面的文章
2020-06-09 22:17:59
330
转载 spark的shuffle(hash shuffle and sort shuffle)
可以对比hadoop shuffle spark是对mapreduce的封装SparkShuffle:SparkShuffle概念reduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value,然后生成一个新的RDD,元素类型是<key,value>对的形式,这样每一个key对应一个聚合起来的value。问题:聚合之前,每一个key对应的value不一定都是在一个partition中,也不太可能在同一个节点上,因为RDD是分布式的弹性...
2020-06-09 10:19:02
221
原创 大数据思维与数据驱动
大数据的核心:实现商业价值大数据的本质:消除一切不确定性一:大数据的概念时代的发展变迁,单从互联网的角度来讲,从最初的IBM巨型机到后来的单机时代,在到后来家家户户都拥有了PC机,笔者就是从PC机那个年代过来的,那个年代的代表作品有QQ,类似于腾讯和网易这样的公司都是从PC机那个年代发展起来的,差不多2013年前后,微信问世了,象征着进入移动互联网时代,说得通俗点就是人人都拥有一部手机,身在何处,都可以访问互联网,所以叫移动互联网,以及马上要普及的5G技术,进入万物互联的时代。随着时代的发.
2020-06-08 11:48:35
1058
转载 kafka api
kafka apihttps://blog.csdn.net/wangzhanzheng/article/details/80801059
2020-05-30 18:06:34
123
原创 hadoop学习系统
hadoop学习系统1.hadoop的常见命令2.hadf读写hadf上传文件:https://blog.csdn.net/gscsd_t/article/details/79949688(1。问题分块是客户端完成的吗 https://blog.csdn.net/clerk0324/article/details/508878662.datanode是什么一致性 h...
2020-05-29 18:37:51
629
原创 ES学习资料汇总
ES学习资料汇总ES入门【注:es从6开始,一个index只有一个type】1.es,node,kibina安装2.es基本操作以及原理:https://blog.csdn.net/zhenwei1994/article/details/94013059?ops_request_misc=&request_id=&biz_id=102&utm...
2020-05-29 18:36:53
270
转载 java基础之反射
总结的比较好,细致https://blog.csdn.net/sinat_38259539/article/details/71799078
2020-05-26 21:52:18
138
原创 十二个经典的大数据项目
介绍一下,应用较多的大数据项目:1,离线数据处理:项目内容为通过对网站访问日志的采集和清洗,结合数据库中的结构化用户数据,统计并展示网站的PV、UV情况,以对网站的运行情况进行监控。通过此项目,回顾并串联前面讲述的离线数据处理相关技术,如:FIune、Sqoop、Hive、Spark等,了解和掌握PB级数据离线处理的一般过程和架构。2,流式数据处理:项目内容为通过对数据库交易数据修改的实时同步,监控网站实时交易情况,以提高网站交易情况监控的时效性,降低网站运行的风险。 通过此项目,回顾并串联前面讲述
2020-05-26 18:50:35
17787
3
转载 spark sql用户画像
用户画像相关理论,介绍,以及一个例子https://www.cnblogs.com/daiwei1981/p/10013897.html
2020-05-26 10:22:41
326
原创 flink的自定义window聚合统计(增量,全量)
window聚合统计(增量,全量)timewindow,countwindow就不说了,不知道的百度自定义widow:window的数值聚合统计对于某一个window内的数值统计,我们可以增量的聚合统计或者全量的聚合统计增量聚合统计窗口当中每加入一条数据,就进行一次统计reduce(reduceFunction)aggregate(aggregateFunction)sum(),min(),max()import org.apache.flink.api.comm..
2020-05-25 18:35:07
6100
原创 数仓项目
数仓项目数据库与数据仓库的对比:项目视频:https://www.bilibili.com/video/BV1x4411B7ak?from=search&seid=1318874413682355103数仓项目(1):https://blog.csdn.net/qq_43733123/article/details/105800352数仓项目(2):https://blog.csdn.net/qq_43733123/article/details/105805852数仓项目.
2020-05-17 23:16:44
535
原创 flink worldcount
一:.在window搭建源码阅读环境,仿真batch的wordcount运行,1.启动集群2.开始提交任务二:在win10部署单机版的flink集群,通过:localhost:8081访问,我们会看到界面,但是看不到详细的任务执行过程,可以对比学习,下面代码是具体流程。D:\java\jdk\bin\java.exe "-javaagent:D:\idea\IntelliJ IDEA 2018.3.5\lib\idea_rt.jar=60082:D:\idea\IntelliJ..
2020-05-11 10:05:00
2249
原创 大数据的大
大数据的大,数据量大。如何解决大的问题呢??解决思路?无论什么面对海量的数据,无论什么样的CPU,数据传输处理总归而言是串行处理的,受磁盘IO影响巨大。大数据的解决办法实际上是一种并行的解决思路,无论是并行计算或者移动程序,本质上都是对同时读取量的限制和解决。数据的处理瓶颈,在于出来的量,当量达到一定程度,一定会带来串行问题。所以大数据的解决思路,是并行处理。分块计算就是解决的思路。...
2020-05-10 18:19:20
135
转载 用户电商行为分析常见指标汇总
用户电商行为分析常见指标汇总新增用户,PV,UV,留存率,转化率等https://blog.csdn.net/zhiliao117/article/details/89312846
2020-05-10 17:52:41
468
原创 flink hdfs connect
source and sinkpublic class FileSystemConnector { public static void main(String[] args) throws Exception { // 创建流处理执行环境 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 从文本文件中数...
2020-05-08 20:08:17
256
原创 flink ttl(time to live)
TTL主要就是对state的清理,防止state过多占用系统资源,而导致资源不足。这是一篇云社区的文章,从源码角度详细的讲解了TTL.如何应对飞速增长的状态?Flink State TTL 概述https://cloud.tencent.com/developer/article/1452844这是一个培训的一篇应用类解释:http://m.dataguru.cn/threa...
2020-05-07 13:43:36
676
原创 flink的状态管理(state manage)与可查询状态
1.什么是状态管理2.可查询状态有什么应用场景????什么是状态管理:https://blog.csdn.net/xorxos/article/details/80877266可查询状态引入可查询状态的好处将有助于消除对键值存储(key-value stores)之类的外部系统的依赖,这些键值存储在实践中经常是瓶颈,正如上图所示。将Flink内部的状态暴露给外部实际...
2020-05-07 11:15:43
1365
转载 Flink DataStream 可查询状态(Queryable State)
参考:https://blog.csdn.net/wangpei1949/article/details/100608828
2020-05-07 09:13:00
241
原创 图说spark工作原理
1.Cluster Manager在standalone模式中即为Master主节点,控制整个集群,监控worker。spark on yarnyarn 集群启动与客户端启动
2020-05-06 10:34:17
131
原创 spark的shuffle原理分析
spark的shuffle原理分析https://blog.csdn.net/zhanglh046/article/details/78360762图解shufflehttps://blog.csdn.net/zg_hover/article/details/73018918
2020-05-06 10:12:10
122
原创 图说yarn资源调度
yarn资源调度https://blog.csdn.net/qq_26442553/article/details/78699759?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522158435891319724811829197%2522%252C%2522scm%2522%253A%252220140713.130056...
2020-05-06 10:09:04
96
原创 sqoop数据迁移【mysql到hdfs】
spooq的数据迁移,是批量处理参考博客:https://blog.csdn.net/weixin_38201936/article/details/88688784
2020-05-05 16:25:33
180
原创 flink runtime
runtime是flink运行的状态,是flink的核心,在flink中扮演重要角色。注:原理性的东西,对比记忆,JM,TM与hadoop的主从都是相识的,一般都是序列化,rpc,主从,资源申请,分配。1.从源码看一下runtime有哪些东西这是runtime的所有目录,runtime主要有client,JM,TM,RM以及dispather等下面详细讲解一下r...
2020-05-05 12:30:40
590
原创 flink中消费kafka数据防止乱序
Kafka 分区时间戳当以 Kafka 来作为数据源的时候,通常每个 Kafka 分区的数据时间戳是递增的(事件是有序的),但是当你作业设置多个并行度的时候,Flink 去消费 Kafka 数据流是并行的,那么并行的去消费 Kafka 分区的数据就会导致打乱原每个分区的数据时间戳的顺序。在这种情况下,你可以使用 Flink 中的Kafka-partition-aware特性来生...
2020-05-04 18:42:51
5344
2
原创 flink问题
1.Flink概念中Event与Record的区别?flink中有两个概念我一直很疑惑,那就是“事件”和“记录”。虽然我知道“事件”是一种特殊的“记录”,但是我不知道什么样的记录才能称之为“事件”。Source输出的数据可以称之为“事件”吗? map/filter算子输出的数据可以称之为“事件”吗? window后的sum算子输出的数据可以称之为“事件”吗? “记录”携带“...
2020-05-04 16:27:19
120
原创 flink on yarn
flink部署在yarn上1.flink-session【直接提交,就可以运行,资源固定,用完即释放,适合小规模任务,如果大规模,很难满足资源设置的资源时,任务就会被挂起,或者根本不会执行】2.flink-pre【按需申请,能更加合理的利用资源】详解2中模式的区别::第一种模式:单个yarn session模式这种方式需要先启动集群,然后在提交作业,接着会向yar...
2020-05-04 12:56:39
282
原创 Flink+ELK实践,实时监控flink任务
flink+ELK架构,实现实时监控flink,记录flink的操作成功与否。其中filebeat可以换成其他,如flume等
2020-05-03 22:21:09
1504
原创 flink延迟数据处理
flink延时数据处理flink延时数据处理,我们第一时间想到的是watermark,但是watermark真的能够完全解决数据延时问题吗?肯定是不能。通常对于延时数据的处理分为3种方式:1.直接丢弃,少量的数据丢失或许并不影响结果,毕竟离线的时候还会处理2.把迟到的部分,单独在开一个window处理3.把数据符合要求的部分,在导入到窗口中下面是一篇博客的详细讲述1,...
2020-05-03 22:07:19
3239
1
转载 flink延时监控
流式计算中处理延迟是一个非常重要的监控metricflink中通过开启配置 metrics.latency.interval 来开启latency后就可以在metric中看到askManagerJobMetricGroup/operator_id/operator_subtask_index/latency指标了如果每一条数据都打上时间监控 输出时间- 输入时间,会大量的消耗性能...
2020-05-03 16:20:40
2120
原创 flink学习的相关blog与文章来源总结
flink学习的相关blog与文章来源总结我的有道云笔记:文档:flink源码.note链接:http://note.youdao.com/noteshare?id=f8de867baccfb3515aca69e216d2b132
2020-05-02 13:54:12
141
原创 flink的分区器策略
1.随机分区器ShufflePartitioner2.自定义分区器CustomPartitionerWrappery使用用户定义的分区程序为每个元素选择目标任务。3.全局分区器GlobalPartitioner4.重行分区RebalancePartitioner分区元素轮循,从而为每个分区创建相等的负载。在存在数据偏斜的情况下对性能优化有用。详细代码:https:...
2020-05-02 13:47:35
771
原创 flink分布式缓存
1 分布式缓存Flink提供了一个分布式缓存,类似于hadoop,可以使用户在并行函数中很方便的读取本地文件,并把它放在taskmanager节点中,防止task重复拉取。此缓存的工作机制如下:程序注册一个文件或者目录(本地或者远程文件系统,例如hdfs或者s3),通过ExecutionEnvironment注册缓存文件并为它起一个名称。当程序执行,Flink自动将文件或者目录复制到所有tas...
2020-05-02 13:31:05
588
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅