大数据
文章平均质量分 92
penngo
Java\PHP\Go开发者,养成记录的习惯。
展开
-
Spark Structured Streaming使用教程
Structured Streaming是一个基于Spark SQL引擎的可扩展和容错流处理引擎,Spark SQL引擎将负责增量和连续地运行它,并在流数据继续到达时更新最终结果。原创 2023-12-07 22:49:11 · 1422 阅读 · 0 评论 -
Spark DataFrame和Dataset使用例子
Spark DataFrame和Dataset使用教程原创 2023-12-07 13:00:40 · 1139 阅读 · 0 评论 -
Spark RDD使用教程
Transformation(转换):表示是针对RDD中数据的转换操作,主要会针对已有的RDD创建一个新的RDD:常见的有map、flatMap、filter等等。Action(执行)表示是触发任务执行的操作,主要对RDD进行最后的操作,比如遍历、reduce、保存到文件等,并且还可以把结果返回给Driver程序。使用例子SparkRdd.java。(数据源)中的元素应用一个函数。(分布式数据集),它由每个。(分布式数据集),它由每个。(数据源)中应用一个函数。上执行聚合操作(例如,Meaning(含义)原创 2023-12-05 07:30:00 · 1247 阅读 · 0 评论 -
Flink CDC读取Mysql数据
Flink Mysql CDC的核心原理都是通过监控mysql的binlog的日志变化,从而进行日志解析,得到变化的数据。Flink CDC官网:https://github.com/ververica/flink-cdc-connectorsMySql CDC:https://github.com/ververica/flink-cdc-connectors/blob/master/docs/content/con原创 2022-05-22 21:03:48 · 4011 阅读 · 1 评论 -
Flink CDC读取Mongodb数据
文章目录1、简介2、依赖条件3、配置MongoDB副本集4、创建maven工程1、简介MongoDB CDC连接器通过伪装一个MongoDB集群里副本,利用MongoDB集群的高可用机制,该副本可以从master节点获取完整oplog(operation log)事件流。Flink CDC官网:https://github.com/ververica/flink-cdc-connectorsMongoDB CDC:https://github.com/ververica/flink-cdc-conn原创 2022-05-22 18:13:03 · 4073 阅读 · 21 评论