![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Flink
北山璎珞
私はこのjianghuが好き
展开
-
电商指标项目-模板方法
1. 模板方法提取公共类模板方法 模板方法模式是在父类中定义算法的骨架,把具体实延迟到子类中去,可以在不改变一个算法的结构时可重定义该算法的某些步骤。 前面我们已经编写了三个业务的分析代码,代码结构都是分五部分,非常的相似。针对这样的代码,我们可以进行优化,提取模板类,让所有的任务类都按照模板的顺序去执行。BaseTask.scalapackage com.itheima.realprocess.taskimport com.itheima.realprocess.bean.ClickLo原创 2020-08-06 21:06:17 · 602 阅读 · 0 评论 -
电商指标项目-实时频道热点分析业务开发
1. 业务介绍频道热点,就是要统计频道被访问(点击)的数量。分析得到以下的数据:频道ID访问数量频道ID1128频道ID2401频道ID3501需要将历史的点击数据进行累加2. 业务开发步骤创建实时热点样例类,专门用来计算实时热点的数据将预处理后的数据,转换为要分析出来的数据(频道、访问次数)样例类按照频道进行分组(分流)划分时间窗口(3秒一个窗口)进行合并计数统计打印测试将计算后的数据下沉到Hbase实现创建一个Chann原创 2020-08-06 20:36:51 · 812 阅读 · 0 评论 -
电商指标项目-点击流日志实时数据预处理(含源码)
实时数据分析业务目标完成点击流日志数据预处理业务开发完成实时频道热点分析业务开发完成实时频道PV/UV分析业务开发完成实时频道用户新鲜度分析业务开发完成实时频道地域分析业务开发业务开发一般流程一般流程先对原始数据进行拓宽预处理将拓宽后的数据转换为要进行分析业务字段按照指定字段进行分组将组内数据划分到窗口中聚合计算将数据落地到hbase预处理的过程非常关键,它是业务的源头,如果预处理做得很好,后续业务的开发会变得简单很多点击流日志实时数据预处理1. 业务分析原创 2020-07-27 22:37:19 · 711 阅读 · 0 评论 -
电商指标项目-HBaseUtil工具类(完整源码)
Flink整合Kafka,可以从Kafka中获取数据进行分析,分析之后要把结果存入HBase中编写一个操作HBase的工具类。HBase作为一个数据库,写一个工具类,实现数据的增删改查1. API介绍方法名用途参数说明返回值getTable创建/获取表tableNameStr:表名columnFamily:列族名HBase Table对象putData插入/更新一列数据tableNameStr: 表名rowkey:String rowkeycolumnFami原创 2020-07-26 22:43:16 · 535 阅读 · 0 评论 -
电商指标项目-实时分析系统开发(详细源码)
开发Flink实时分析系统, 通过流的方式读取Kafka中的消息, 进而分析数据(详细源码在最后!!)业务实时分析频道热点实时分析频道PV/UV实时分析频道新鲜度实时分析频道地域分布实时分析运营商平台实时分析浏览器类型技术Flink实时处理算子使用CheckPoint和水印解决Flink生产上遇到的问题(网络延迟、丢数据)Flink整合KafkaFlink整合HBase1. 搭建【Flink实时数据分析系统】项目环境1.1 导入Maven项目依赖pom.xml文件原创 2020-07-26 10:30:32 · 1331 阅读 · 0 评论 -
电商指标项目-上报服务系统开发(详细源码)
上报系统:java工程,SpringBoot框架1.Spring Boot简介Spring Boot是一个基于Spring之上的快速应用构建框架。使用Spring Boot可以快速开发出基于Spring的应用。Spring Boot主要解决两方面的问题。依赖太多问题轻量级JavaEE开发,需要导入大量的依赖依赖之间还存在版本冲突配置太多问题大量的XML配置Spring Boot内部整合了大量的依赖,而且经过大量测试,选择的依赖都是没有版本冲突的。Spring B.原创 2020-07-22 16:59:02 · 843 阅读 · 0 评论 -
电商指标项目-项目整体工程搭建
工程结构本项目采用Maven构建,下面是我们的项目的整体工程架构。总工程为pyg,下面包含我们要开发的5个子模块。IDEA创建工程在指定目录创建父模块pyg,删除总工程的src目录在父模块配置Java版本为1.8<build> <plugins> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId&g原创 2020-07-18 09:54:04 · 227 阅读 · 0 评论 -
电商指标项目-背景及技术选型
1. 项目背景1.1. 项目简介公司有一个正在运营中的电商网站,名称叫做【京京购】。这是一个B2B2C的电商平台,类似京东。现在我们想了解一下该电商网站的各种用户行为(访问行为、购物行为、点击行为等),统计出PV、UV等数据。针对这样的大数据分析项目,我们可以采用MapReduce、Spark或者Flink来进行开发。由于本项目会对实时数据和静态数据进行分析,所以我们采用性能更加优越的Flink来开发。业务目标帮助产品经理、数据分析师以及管理人员分析现有产品的情况根据用户行为分析结果持续改原创 2020-07-18 08:51:46 · 1905 阅读 · 0 评论 -
Flink高级Demo(含源码)
Flink的状态管理keyed stateoperator stateFlink的CheckPointcheckpoint的持久化方案checkpoint持久化开发Flink SQL & Table APIDataSet/DataStream转TableTable转DataSet/DataStreamSQL操作数据TableAPI操作数据1. Flink的状态管理1.1. 什么是有状态的计算官网对Flink的解释:Stateful Computa..原创 2020-07-14 22:50:26 · 3055 阅读 · 1 评论 -
Flink流处理Demo(含源码)
Flink流处理的Source基于集合基于文件基于Socket自定义数据源使用Kafka作为数据源使用MySql作为数据源Flink流处理的Transformationkeybyconnectsplit和selectFlink流处理的Sinksink到kafkasink到mysqlFlink的Window操作时间窗口计数窗口自定义窗口Flink的水印机制1. 输入数据集DataSourceFlink 中你可以使用 StreamExecuti.原创 2020-07-14 22:45:55 · 3381 阅读 · 1 评论 -
Flink批处理Demo(含源码)
Flink的批处理Source基于本地集合基于文件基于CSV基于压缩文件Flink的TransformationmapflatmapfilterreducerebalanceFlink的Sink写入集合写入文件Flink程序本地执行和集群执行Flink的广播变量Flink的累加器Flink的分布式缓存Flink 应用程序结构主要包含三部分,Source/Transformation/Sink,如下图所示:Source: 数据源,Flink 在流.原创 2020-07-14 22:01:45 · 6047 阅读 · 0 评论 -
Flink架构介绍
1. Flink基石Flink之所以能这么流行,离不开它最重要的四个基石:Checkpoint、State、Time、Window。首先是Checkpoint机制,这是Flink最重要的一个特性。Flink基于Chandy-Lamport算法实现了一个分布式的一致性的快照,从而提供了一致性的语义。Chandy-Lamport算法实际上在1985年的时候已经被提出来,但并没有被很广泛的应用,而Flink则把这个算法发扬光大了。Spark最近在实现Continue streaming,Continue s原创 2020-07-12 17:08:17 · 3192 阅读 · 0 评论 -
Flink集群安装及使用
Flink支持多种安装模式local(本地)——单机模式,一般不使用standalone——独立模式,Flink自带集群,开发测试环境使用yarn——计算资源统一由Hadoop YARN管理,生产测试环境使用1. 伪分布环境部署Flink程序需要提交给Job ClientJob Client将作业提交给Job ManagerJob Manager负责协调资源分配和作业执行。 资源分配完成后,任务将提交给相应的Task ManagerTask Manager启动一个线程以开始执行。Ta原创 2020-07-12 16:51:43 · 2346 阅读 · 0 评论 -
Fink入门介绍
1. Flink介绍1.1. Flink引入这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink,也就在这个时候默默的发展着。 在国外一些社区,有很多人将大数据的计算引擎分成了4 代,当然也有很多人不会认同。我们先姑且这么认为和讨论。第1代——Hadoop Ma原创 2020-07-10 21:13:47 · 20588 阅读 · 0 评论