- 博客(447)
- 收藏
- 关注
原创 Flink 整合 Kafka 之 电信案例
Flink 整合 Kafka 之 电信案例数据//手机号(通过md5加密的)--脱敏,网格编号,城市编号,区县编号,停留时间,进入时间,离开时间,……D55433A437AEC8D8D3DB2BCA56E9E64392A9D93C,117210031795040,83401,8340104,301,20180503190539,20180503233517,20180503D55433A...
2022-03-23 15:07:00
400
原创 Kafka 集群架构图、通过 java(Scala) 来读写 Kafka
目录Kafka 集群架构图通过 java(Scala) 来读写 Kafka导入依赖生产数据消费者Kafka 集群架构图通过 java(Scala) 来读写 Kafka导入依赖<dependency> <groupId>org.apache.kafka</groupId> <artifactId>...
2022-03-23 11:11:00
240
原创 Flink 消费 Kafka 中的数据
Flink 消费 Kafka 中的数据在官网的 Connectors 中有 Kafka1、导入依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka_2.11</artif...
2022-03-23 00:19:00
899
原创 Kafka 的搭建、验证Kafka是否安装成功(Kafka基本操作)
目录Kafka 的搭建1、上传、解压、配置环境变量2、修改配置文件3、同步到所有节点4、将master的环境变量同步到node1,node25、启动\停止 Kafka6、验证Kafka是否安装成功(Kafka基本操作)7、重置KafkaKafka 的搭建Kafka : 去中心化架构1、上传、解压、配置环境变量上传压缩包到任意节点(这里选择master)cd /usr/local/...
2022-03-22 23:53:00
744
原创 Kafka 简介、非0拷贝和0拷贝、实时计算和离线计算的流程
目录Kafka 简介实时计算和离线计算的流程消息队列的应用场景Kafka架构kafka的消息存储和生产消费模型topic消费者和消费者组kafka 的特点kafka与其他消息队列对比消费状态谁来维护Client vs.Serverkafka的消息存储非0拷贝和0拷贝Non-Zero Copy方式:Zero Copy方式:Kafka 简介实时计算的数据源存储实时数据的工具由Scala语言编...
2022-03-22 21:41:00
244
原创 基于 DataStream API 实现欺诈检测、Flink的定时器
基于 DataStream API 实现欺诈检测实时场景Flink的定时器package com.shujia.flink.coreimport org.apache.flink.api.common.functions.RuntimeContextimport org.apache.flink.api.common.state.{ValueState, ValueStateDe...
2022-03-22 14:44:00
227
原创 Flink State and Checkpoint、Scala中获取类对象、通过checkpoint来恢复之前的状态、process...
目录Flink State and CheckpointStateValueStateCheckpoint通过checkpoint来恢复之前的状态1、从 Flink web 页面2、通过flink命令StateListStateReducingStateFlink State and CheckpointFlink 通过 State 和 Checkpoint 来实现容错和数据处理的唯一一次S...
2022-03-21 23:40:00
245
原创 Flink 窗口、Scala泛型通配符、Flink 窗口的底层 API、解析 json 格式的数据
目录Flink 窗口Time WindowSession WindowCount WindowFlink 窗口的底层 API卡口过车需求案例解析 json 格式的数据导入 fastjson 依赖fastJson解析json字符串实现需求Flink 窗口1、Time Window时间窗口2、Session Window会话窗口如果一段时间没有数据生成一个窗口3、Count Wi...
2022-03-21 21:05:00
489
原创 Flink 基石、Flink Time、事件时间、Watermark水位线
目录Flink 基石Flink Time事件时间WatermarkFlink 基石Flink Time事件时间代码示例package com.shujia.flink.coreimport org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.streaming.api.functi...
2022-03-20 17:04:00
83
原创 Flink 并行度、共享槽位、如何判断Flink需要使用多少资源、查看Flink需要处理的数据频率...
目录Flink 并行度并行数据流任务槽和资源共享槽位如何判断Flink需要使用多少资源Flink 并行度package com.shujia.flink.coreimport org.apache.flink.streaming.api.datastream.DataStreamSinkimport org.apache.flink.streaming.api.scala._obje...
2022-03-19 23:47:00
907
2
原创 Flink 环境的搭建、Standallone Cluster 独立集群、Flink on Yarn、访问Flink web界面、Flink提交任务的三种方式、Flink读取HDFS上的数据、Flin...
目录Flink 环境的搭建Standallone Cluster 独立集群1、上传、解压、配置环境变量2、修改配置文件3、同步到所有节点4、启动(停止)集群访问Flink web界面Flink提交任务的三种方式1、在web页面中提交2、通过flink命令提交任务3、rpc方式提交任务 --- 远程提交Flink on Yarn1、配置HADOOP_CONF_DIR2、将hadoop依赖jar上传...
2022-03-19 21:43:00
390
原创 Flink Sink: 接收器
目录Flink Sink: 接收器1、写入文件4、自定义的 sinkFlink Sink: 接收器Flink 将转换计算后的数据发送的地点 。Flink 常见的 Sink 大概有如下几类:1、写入文件、2、打印出来、3、写入 socket 、4、自定义的 sink 。自定义的 sink 常见的有 Apache kafka、RabbitMQ、MySQL、ElasticSearch、Ap...
2022-03-19 00:41:00
92
原创 DataStream常用算子
目录DataStream常用算子在 Flink 应用程序中,无论你的应用程序是批程序,还是流程序,都是上图这种模型,有数据源(source),有数据下游(sink),我们写的应用程序多是对数据源过来的数据做一系列操作,总结如下。1、Map2、FlatMap3、Filter4、KeyBy5、Reduce6、Aggregations7、Window8、Union9、Window Join10、Spl...
2022-03-18 23:56:00
291
原创 Flink Source:数据源
目录Flink Source:数据源1、基于本地集合的 source2、基于文件的 source3、基于网络套接字的 source4、自定义的 sourceFlink Source:数据源Flink 在流处理和批处理上的 source 大概有 4 类:1、基于本地集合的 source、2、基于文件的 source、3、基于网络套接字的 source、4、自定义的 source。自定义的...
2022-03-18 22:16:00
151
原创 Flink WordCount、打开Flink的日志输出、Spark WordCount 和 Flink WordCount 的运行流程对比...
目录Flink WordCount导入依赖WordCount 代码打开Flink的日志输出1、导入log4j的依赖2、将log4j的配置文件放在项目的resources目录下Spark WordCount 和 Flink WordCount 的运行流程对比Flink WordCount导入依赖<properties> <project.build.sourc...
2022-03-18 21:19:00
500
原创 Flink简介
目录Flink流处理和批处理的区别无界流和有界流流处理批处理流处理和批处理的特点实时计算面临的挑战什么是Flink?Flink的特点BlinkFlink技术栈Flink APIs数据流编程模型Flink代码结构Flink相当于是对spark的一个延伸我们在学习一个框架的时候,要记住关注GitHubGitHub: Where the world builds software · Git...
2022-03-18 20:03:00
89
原创 spark 数据倾斜优化
目录spark 数据倾斜优化数据倾斜产生的原因数据倾斜七种解决方案使用Hive ETL预处理数据过滤少数导致倾斜的key提高shuffle操作的并行度双重聚合将reduce join转为map join采样倾斜key并分拆join操作使用随机前缀和扩容RDD进行joinspark 数据倾斜优化数据倾斜产生的原因1、数据分布不均,有的key很多,有的key很少2、有shuffle的过程这...
2022-03-17 22:54:00
276
原创 spark 参数调优
目录参数调优num-executorsexecutor-memoryexecutor-coresdriver-memoryspark.default.parallelismspark.storage.memoryFractionspark.shuffle.memoryFraction数据本地化shuffle调优Spark Shuffleshuffle可能面临的问题如何优化解决问题?SortShu...
2022-03-17 21:35:00
372
原创 精准搜索需求、通过IDEA将数据格式化
精准搜索需求数据:{"recordMap":{"screenwriter":"","publishtime":"2021-08-21","year":"2021","score":"0.0"},"processDate":"2021-11-03","cid":"c370201","itemId":"7232742","utctime":"1635935657824","useMap":{"...
2022-03-17 19:00:00
136
原创 spark 调优、spark 代码的优化
目录spark 调优spark 代码的优化对多次使用的RDD进行持久化使用高性能的算子使用foreachPartitions替代foreach Action算子重分区使用filter之后进行coalesce操作广播大变量使用Kryo优化序列化性能优化数据结构使用高性能的库fastutilspark 调优三个方面:代码的优化参数的优化数据倾斜的优化spark 代码的优化加粗的为重...
2022-03-15 22:00:00
250
原创 Spark MLlib
目录Spark MLlib导入依赖稠密向量和稀疏向量Spark MLlib 线性回归 程序示例Spark MLlib 逻辑回归 程序示例使用已经训练好的模型image(图片) 训练模型Spark MLlibSpark 机器学习机器学习是人工智能的一个分支注意:我们学习一个框架的时候一定要学会看官网导入依赖<dependency> <grou...
2022-03-15 11:38:00
223
原创 机器学习、算法
目录机器学习数学模型有监督和无监督机器学习流程K-近邻算法(KNN)朴素贝叶斯分类算法决策树算法随机森林算法逻辑回归算法k-means聚类人工神经网络深度学习降低维度算法机器学习/数据挖掘建模过程常用的机器学习/数据挖掘建模工具朴素贝叶斯分类贝叶斯定理朴素贝叶斯分类的思想和工作过程机器学习数学模型机器学习简单理解:坐标系中有很多点,要画一条线,尽量穿过所有的点。那么画这条线的过程就是机器学习...
2022-03-14 21:24:00
159
原创 DStream、RDD、DataFrame 的相互转换、spark 比 MapReduce 快的原因
目录DStream、RDD、DataFrame 的相互转换spark 比 MapReduce 快的原因1、当对同一个rdd多次使用的时候可以将这个rdd缓存起来2、spark -- 粗粒度的资源调度,MapReduce -- 细粒度的资源调度3、DAG有向无环图DStream、RDD、DataFrame 的相互转换DStream → RDD → DataFramepackage com...
2022-03-13 15:18:00
220
原创 有状态算子、滑动窗口和滚动窗口
目录有状态算子滑动窗口和滚动窗口滑动窗口的使用及优化(包含滚动窗口)有状态算子之前我们在运行 Spark Streaming 的时候发现微批处理之中,每一个批次都是相对独立的如何让其能够产生累加的效果呢?package com.shujia.streamimport org.apache.spark.streaming.dstream.{DStream, ReceiverInpu...
2022-03-13 14:24:00
201
原创 Spark Streaming、离线计算、实时计算、实时查询、Spark Streaming 原理、Spark Streaming WordCount、Spark Streaming 架构图...
目录Spark Streaming离线计算、实时计算、实时查询Spark Streaming 原理Spark Streaming WordCount1、导入依赖2、WordCount 示例Spark Streaming 架构图Spark Streamingspark 中 最重要的就是 spark core 和 spark sql (也就是之前笔记的内容)离线计算、实时计算、实时查询S...
2022-03-13 00:33:00
233
原创 查看 spark-sql 的 SQL语法树、spark-sql 的优化、整合 hive 之后通过代码操作
目录查看 spark-sql 的 SQL语法树spark-sql 的优化1、缓存2、广播小表 -- 实现mapjoin -- hint在代码中实现优化整合 hive 之后,通过代码操作查看 spark-sql 的 SQL语法树查看 spark-sql 的web界面的一种方式在通过 spark-sql --master yarn-client 命令进入 spark-sql 的时候可...
2022-03-12 22:36:00
290
原创 spark 写代码的三种方式、spark 整合 Hive
目录spark 写代码的方式1、在IDEA中将代码编写好然后打包上传到集群中运行(使用最多)2、spark shell(REPL -- 交互式的命令行)3、spark-sql(spark的SQL命令行)在进入 spark-sql 的过程中会输出很多日志,那么如何取消这些日志呢?spark 整合 Hivespark 写代码的方式1、在IDEA中将代码编写好然后打包上传到集群中运行(使用最多)...
2022-03-12 21:42:00
516
原创 DSL练习、array函数、map函数、sum() 在 over(窗口函数) 中的两种用法、expr()--转换成列的对象、when(表达式,为true返回的值).otherwise(为false返回...
DSL练习统计每科都及格的学生 需要显示[学号,姓名,班级,性别,科目名,科目分数]package com.shujia.sqlimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}object Demo6Stud...
2022-03-12 00:17:00
382
1
原创 Spark SQL API -- DSL
Spark SQL APIDSL代码 --> DSL <-- SQLpackage com.shujia.sqlimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.{DataFrame, SparkSession}object Demo5DSL { def main...
2022-03-11 22:08:00
112
原创 Dataframe Data Source API、show()
目录Dataframe Data Source APIshow()Dataframe Data Source API我们来看一下构建 Dataframe 的方式有哪些读取数据源,可以读哪些数据package com.shujia.sqlimport org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}object...
2022-03-11 21:18:00
55
原创 spark SQL、Dataframe、Dataframe 和 RDD 的区别、spark SQL WordCount
目录首先让我们来回顾一下 spark 的生态系统spark SQLDataframeDataframe 和 RDD 的区别spark SQL WordCount首先让我们来回顾一下 spark 的生态系统spark SQLDataframe与RDD类似,DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格,除了数据以外,还掌握数据的结构信息,即sch...
2022-03-11 20:04:00
384
原创 PageRank、图计算、图存储的两种方式
目录PageRank什么是PageRank?算法原理入链 ====投票入链数量入链质量网络上各个页面的连接图计算过程初始值迭代递归计算(收敛)图存储的两种方式代码实现PageRank网页排名算法什么是PageRank?PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。是Google创始人拉里·佩奇和谢尔盖·布林于1997年创造的。...
2022-03-11 11:05:00
106
原创 spark 累加器、广播变量、Executor 的结构
spark 累加器package com.shujia.sparkimport java.langimport org.apache.spark.rdd.RDDimport org.apache.spark.util.LongAccumulatorimport org.apache.spark.{SparkConf, SparkContext}object Demo24Acc ...
2022-03-11 10:07:00
87
原创 spark 缓存
spark 缓存spark 比 MapReduce 快的一个原因package com.shujia.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.storage.StorageLevelimport org.apache.spark.{SparkConf, SparkContext}object De...
2022-03-11 00:10:00
195
原创 spark 程序的执行架构、spark on yarn 中 client 模式和 cluster 模式提交任务(资源调度)的区别、宽依赖和窄依赖、spark 程序的结构、spark资源调度及任务调度原...
目录spark 程序的执行架构spark on yarn 中 client 模式和 cluster 模式提交任务(资源调度)的区别Spark 比 MapReduce 快的一个原因yarn client 模式提交任务的流程yarn cluster 模式提交任务的流程资源调度和任务调度宽依赖和窄依赖spark 程序的结构spark资源调度及任务调度原理图spark 程序的执行架构任意的 spark...
2022-03-10 22:31:00
419
原创 spark pi(org.apache.spark.examples.SparkPi 原理)
spark piorg.apache.spark.examples.SparkPi 原理package com.shujia.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import scala.util.Randomobject Demo22PI...
2022-03-09 00:23:00
491
原创 Spark Standalone -- 独立集群模式、Spark 提交任务的两种模式、spark在yarn上运行的环境搭建、自己写的spark代码如何提交到yarn上并运行...
目录Spark Standalone -- 独立集群模式Standalone 架构图Standalone 的搭建1、上传、解压、重命名2、配置环境变量3、修改配置文件 conf4、同步到其他节点5、启动、关闭访问 spark web 界面Spark 提交任务的两种模式standalone client模式 日志在本地输出,一般用于上线前测试(bin/下执行)standalone cluste...
2022-03-08 23:52:00
380
1
原创 spark 算子
目录spark 算子的分类转换算子操作算子常用算子归纳程序示例transformations map、mapPartitions、mapPartitionsWithIndextransformations Filtertransformations FlatMaptransformations SampleAction 算子 foreach、saveAsTextFile、count、collec...
2022-03-07 23:56:00
122
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人