BigData
文章平均质量分 88
大数据相关内容
蒋含竹
非淡泊无以明志,非宁静无以致远。
展开
-
ChunJun源码分析——脏数据插件
【代码】ChunJun脏数据插件——源码分析。原创 2023-03-06 15:53:13 · 546 阅读 · 0 评论 -
ChunJun源码分析——JDBC轮询增量更新
ChunJun-JDBC轮询增量更新-源码分析,断点续传与增量更新字段的关系原创 2023-02-10 13:52:31 · 974 阅读 · 0 评论 -
ChunJun源码分析——任务提交
源码,ChunJun/FlinkX任务提交启动的流程源码分析,提交参数解析、反射Main、SYNC、SQL、connector插件加载、Source、Sink原创 2023-02-06 09:42:30 · 782 阅读 · 1 评论 -
CDC变化数据捕获——Debezium-Embedded
文章目录CDC变化数据捕获——Debezium-Embedded0. 前言1. 配置MySQL主从同步2. Debezium-Embedded 代码开发2.1 Maven导包2.2 代码-简单示例2.3 代码-使用Connect.class创建引擎2.4 代码-批量处理CDC事件2.5 启动代码运行即可CDC变化数据捕获——Debezium-Embedded0. 前言CDC(Change Data Capture)是变化数据捕获的意思,可以捕获数据库数据的增加、更新、删除等记录,RedHat的 De原创 2021-05-07 21:39:39 · 5019 阅读 · 22 评论 -
Flink示例——Flink-CDC
Flink示例——Flink-CDC版本信息Mavan依赖主从同步配置、数据准备使用Flink-CDC简单的测试Flink示例——Flink-CDC版本信息产品 版本Flink 1.11.1flink-cdc-connectors 1.1.0Java 1.8.0_231MySQL 5.7.16注意:官方说目前支持MySQL-5.7和8,但笔者还简单测试过mariadb-10.0.38(对应MySQL-5.6)。包括增加、删除、更新、聚合,目前皆可用,但不排除未知问题。Mavan原创 2020-09-18 23:28:39 · 12398 阅读 · 17 评论 -
Flink应用——公交疫情实时流监控
文章目录Flink应用——公交疫情实时流监控前言版本信息Mavan 依赖数据源(刷卡事件信息 + 公交车信息)流数据源Bean对象与数据获取公交车辆最新的状态信息(开窗函数)刷卡事件信息关联车辆状态信息(Join)后续,下游操作Flink应用——公交疫情实时流监控前言此部分是Flink的场景应用示例,本篇主要结合近期的疫情热点做应用需要注意的是,后续的代码主要以版本信息产品版本Flink1.9.1Java1.8.0_231Scala2.11.12M原创 2020-07-27 14:31:39 · 914 阅读 · 4 评论 -
分布式缓存一致性(Redis、MySQL)
文章目录分布式——缓存一致性(Redis、MySQL)1. 前言2. 常见方案的问题点2.1 先更新数据库,再更新缓存2.2 先删除缓存,再更新数据库2.3 先更新数据库,再删除缓存3. 维护一致性3.1 设置缓存过期时间3.2 利用消息队列来异步处理3.2 利用Canal监控MySQL,来做异步处理4. 维护一致性——拓展思考4.1 思考4.2 分布式架构4.3 分布式架构(优化)分布式——缓存一致性(Redis、MySQL)1. 前言分布式一致性的问题,既是指“如何保证分布式多个节点的数据一样、原创 2020-07-20 01:14:05 · 2292 阅读 · 1 评论 -
Spark源码剖析——Action操作、runJob流程
文章目录Spark源码剖析——Action操作、runJob流程当前环境与版本前言供分析的代码collect 源码分析DAGScheduler中的处理TaskScheduler中的处理CoarseGrainedSchedulerBackend、DriverEndpoint中的处理Executor中的处理Spark源码剖析——Action操作、runJob流程当前环境与版本环境版本JDKjava version “1.8.0_231” (HotSpot)ScalaScala原创 2020-07-09 13:52:50 · 655 阅读 · 0 评论 -
Spark代码可读性与性能优化——示例十一(SQL与代码-蚂蚁森林示例)
文章目录Spark代码可读性与性能优化——示例十一(SQL与代码-蚂蚁森林示例)前言业务描述使用SQL解决业务问题 - 方案1使用SQL解决业务问题 - 方案2使用代码带来更高的性能Spark代码可读性与性能优化——示例十一(SQL与代码-蚂蚁森林示例)前言编写SQL处理业务问题,通常有简单易用、便捷、适用人群广泛等优点,是数据分析师的不二之选。但是,SQL易用的同时也带来了性能的问题,当为了解决某些复杂的业务时,你不得不编写几十至几百行很复杂的SQL来处理。由于为了实现复杂的业务,SQL中会存在原创 2020-05-31 00:08:36 · 749 阅读 · 2 评论 -
基于阿里云的数据仓库架构设计
文章目录基于阿里云的数据仓库架构(未完)产品对比离线数仓实时数仓基于阿里云的数据仓库架构(未完)产品对比阿里云产品同类产品简介RDSMySQL、PostgreSQL关系型数据库服务,是阿里提供的云数据库,有各种版本,例如MySQL版、PostgreSQL版、SQLServer版等DTSCanal、DataX、Sqoop、Flume数据传输服务,功能丰富,包........................原创 2020-03-27 14:16:18 · 6588 阅读 · 8 评论 -
Spark源码剖析——SparkContext实例化
文章目录Spark源码剖析——SparkContext实例化当前环境与版本前言SparkContext实例化的主要逻辑LiveListenerBus的作用createSparkEnv的过程创建不同的SchedulerBackend、TaskSchedulerDAGSchedulerSpark源码剖析——SparkContext实例化当前环境与版本环境版本JDKjava ...原创 2020-03-21 22:52:03 · 1611 阅读 · 0 评论 -
Spark源码剖析——SparkSubmit提交流程
文章目录Spark源码剖析——SparkSubmit提交流程当前环境与版本前言Shell命令部分参数解析 MainSparkSubmitSpark源码剖析——SparkSubmit提交流程当前环境与版本环境版本JDKjava version “1.8.0_231” (HotSpot)SaclaScala-2.11.12Sparkspark-2.4.4...原创 2020-03-11 21:30:33 · 2251 阅读 · 0 评论 -
Spark源码剖析——Master、Worker启动流程
文章目录Spark源码剖析——Master、Worker启动流程当前环境与版本1. 前言2. Master启动流程2.1 Master的伴生对象2.2 Master3. Worker启动流程3.1 Worker的伴生对象3.2 Worker4. Master与Worker的初步交互(注册)Spark源码剖析——Master、Worker启动流程当前环境与版本环境版本JDK...原创 2020-02-29 18:05:04 · 1356 阅读 · 0 评论 -
Spark源码剖析——RpcEndpoint、RpcEnv
文章目录Spark源码剖析——RpcEndpoint、RpcEnv当前环境与版本1. 前言2. RpcEndpoint2.1 核心UML图2.2 RpcEndpoint源码分析3. RpcEndpointRef3.1 RpcEndpointRef3.2 NettyRpcEndpointRef4. RpcEnvSpark源码剖析——RpcEndpoint、RpcEnv当前环境与版本环境...原创 2020-02-26 00:39:37 · 1497 阅读 · 0 评论 -
HBase之Rowkey设计
HBase之Rowkey设计Rowkey基础Rowkey按自然顺序存储的,且具有唯一性,示例如下a_022a_101b_123f_031f_051f_131z_121当数据是有序的时候,通常利用二分查找的方式进行点查询、范围查询是最有效的(hash只能进行点查)。HBase的Rowkey查询正是遵循这种规律。Rowkey的查询可以分为两大类Get 点查询,给定一个ro...原创 2020-02-13 16:34:06 · 1871 阅读 · 1 评论 -
Flink示例——Table、SQL
文章目录Flink示例——Table、SQL版本信息Mavan依赖自定义SourceFunctionTableAPI、SQL 简单示例TableAPI、SQL 窗口聚合示例Flink示例——Table、SQL版本信息产品版本Flink1.7.2Java1.8.0_231Scala2.11.12Mavan依赖pom.xml 依赖部分<dep...原创 2020-02-12 18:07:20 · 1082 阅读 · 0 评论 -
Flink示例——State、Checkpoint、Savepoint
文章目录Flink示例——State、Checkpoint、Savepoint版本信息状态后端 State Backend (管理State、Checkpoint)State 示例CheckpointSavepointFlink示例——State、Checkpoint、Savepoint版本信息产品版本Flink1.7.2Java1.8.0_231Scal...原创 2020-02-11 22:48:17 · 1087 阅读 · 0 评论 -
Flink示例——Window、EventTime、WaterMark
文章目录Flink示例——Window、EventTime、WaterMark版本信息自定义SourceFunctionWindow 示例EventTime、WaterMarkFlink示例——Window、EventTime、WaterMark版本信息产品版本Flink1.7.2Java1.8.0_231Scala2.11.12自定义Source...原创 2020-02-10 21:51:50 · 770 阅读 · 0 评论 -
Flink示例——Connect、CoMapFunction、Split、Select
文章目录Flink示例——Connect、CoMapFunction、Split、Select版本信息自定义SourceFunctionConnect、CoMapFunction 示例Split、Select 示例Flink示例——Connect、CoMapFunction、Split、Select版本信息产品版本Flink1.7.2Java1.8.0_231...原创 2020-02-10 14:50:03 · 1781 阅读 · 0 评论 -
Flink示例——Sink
文章目录Flink示例——Sink版本信息自定义SourceFunctionPrint Sink 示例Kafka Sink 示例ElasticSearch Sink 示例Redis Sink 示例自定义 Sink 示例 (JDBC)Flink示例——Sink版本信息产品版本Flink1.7.2Java1.8.0_231Scala2.11.12自定义...原创 2020-02-10 14:29:01 · 1071 阅读 · 0 评论 -
Flink示例——Source
文章目录Flink示例——Source版本信息Collection/Elements Source 示例Text Source 示例Socket Source 示例Kafka Source 示例自定义 Source 示例Flink示例——Source版本信息产品版本Flink1.7.2Java1.8.0_231Scala2.11.12Collect...原创 2020-02-10 14:11:40 · 1263 阅读 · 0 评论 -
Akka事件驱动——模拟Spark注册、心跳
文章目录Akka事件驱动——模拟Spark心跳Akka简介事件驱动示意图Akka事件驱动——模拟Spark心跳Akka简介对于Netty封装的网络通信框架基于事件驱动模型:异步、非阻塞、高性能Actor的并发模型,单个线程内可以共存多个Actor,不需要为每个连接维护一个线程由Scala编写事件驱动示意图...原创 2020-01-31 15:53:28 · 1088 阅读 · 0 评论 -
分布式一致性算法(Paxos、Raft、ZAB)
分布式一致性算法(Paxos、Raft、ZAB)仅用作自己记录CAP理论一般来说,对于一个分布式系统,不能同时满足以下三点:Consistency (一致性)Availability (可用性)Partition Tolerance (分区容错性)典型例子一致性可用性分区容错性DataBase高高低RDBMS(MySQL、PostgreSQ...原创 2020-01-22 23:01:13 · 2155 阅读 · 0 评论 -
Spark源码编译
Spark源码编译当前环境System: CentOS Linux release 7.6.1810 (Core)JDK: java version “1.8.0_231” (HotSpot)Sacla: Scala-2.11.12Maven: Apache Maven 3.6.3Spark: spark-2.4.4官方源码编译文档: http://spark.apache.org...原创 2020-01-14 07:17:46 · 1284 阅读 · 0 评论 -
Spark优化总结(四)——业务与架构设计
文章目录Spark优化总结(四)——业务与架构设计1. 前言2. 需求:实时订阅监控系统3. 数据采集、缓冲层、实时计算层的选择3.1 数据采集3.2 缓冲层3.3 实时计算层3.4 目前的架构图4. 怎样将订阅消息推送到实时计算集群?4.1 分析4.2 为所有的用户名设计一个Topic?4.3 将订阅消息存到数据库?4.4 在计算节点开启Socket连接,Web服务发送订阅消息过来?4.5 使用.........原创 2020-01-07 23:13:15 · 1676 阅读 · 0 评论 -
Spark优化总结(三)——调参
文章目录Spark优化总结(三)——调参前言简单示例常用参数JVM调参Spark优化总结(三)——调参前言不要期待修改一个参数能够像魔法一样立马得到神奇的好效果!(某些时候效果确实很棒^_^)你应当把参数看作一道菜中的调味品,能够丰富味道,但主要还是得靠原材料的质量与炒菜的技艺。开发Spark应用时,应当先优化好你的应用代码,再来思考调参优化(必要的参数的除外)。调参是一个比较复杂的主.........原创 2020-01-04 21:50:40 · 3340 阅读 · 1 评论 -
Spark优化总结(二)——代码编写
文章目录Spark优化总结(二)——代码编写1. 前言2. 选择合理的数据结构3. Java容器与Scala容器互转4. 关注经常执行的代码块5. Spark API6. 广播的问题7. 数据传输与解析8. 设计一个合宜的项目结构Spark优化总结(二)——代码编写1. 前言编写一个性能较高的Spark应,需要有良好的代码编写功底。一块不好的代码,通常会导致BUG、效率缓慢等问题,而经常需...原创 2020-01-03 16:00:37 · 2390 阅读 · 2 评论 -
Spark代码可读性与性能优化——示例十(项目结构)
文章目录Spark代码可读性与性能优化——示例十(项目结构)前言安排好每个包下的类为Spark应用设计一个模板基类Spark代码可读性与性能优化——示例十(项目结构)前言安排好每个包下的类安排好各个包的功能,可以方便查看项目代码结构,明确功能,有利降低开发的混乱度在这里,举一个可供参考的示例,如下解释app 用于存放开发的Spark应用common 用于存放通用的配置,或者某......原创 2020-01-02 19:34:36 · 2069 阅读 · 0 评论 -
Spark代码可读性与性能优化——示例九(数据传输与解析)
文章目录Spark代码可读性与性能优化——示例九(数据传输与解析)1. 前言2. Kyro序列化3. csv解析4. json解析5. 其他Spark代码可读性与性能优化——示例九(数据传输与解析)1. 前言通常数据传输与解析是开发人员不常关心的一个方面,会直接使用最便利的方式处理。但是,无论是数据在网络中的传输还是数据的解析方式都会对性能产生影响。下面就举几个例子来说明该如何处理数据。...原创 2020-01-02 16:32:57 · 1766 阅读 · 0 评论 -
Spark优化总结(一)——数据倾斜
文章目录Spark优化总结(一)——数据倾斜1. 前言2. 数据源倾斜3. 存储结果倾斜4. 运行时数据倾斜4.1 过滤导致的数据不均4.2 join导致的数据不均4.3 groupBy导致的数据不均Spark优化总结(一)——数据倾斜1. 前言在Spark应用开发过程中,通常大多数性能问题是在数据倾斜点上。针对数据倾斜问题,我们可以运行状态分出以下几点:数据源倾斜存储结果倾斜运行...原创 2020-01-02 12:24:12 · 2130 阅读 · 4 评论 -
Spark代码可读性与性能优化——示例八(一个业务逻辑,多种解决方式)
文章目录Spark代码可读性与性能优化——示例八(一个业务逻辑,多种解决方式)1. 前情提要2. 需求展示3. 问题分析4. 多种解决方式的示例Spark代码可读性与性能优化——示例八(一个业务逻辑,多种解决方式)1. 前情提要在示例七的末尾种提出了一个需求“同时统计某个表所有字段对应的值的总数、去重后的总数,并要求对应字段值非空”。如果你看过示例七,显然应该知道怎么解决。写这篇文章的目...原创 2019-12-02 18:36:42 · 3443 阅读 · 0 评论 -
Spark代码可读性与性能优化——示例七(构建聚合器,以用于复杂聚合)
文章目录Spark代码可读性与性能优化——示例七(GroupBy、ReduceByKey)1. 多列聚合1.1 前情提要1.2 尝试进行本地多列聚合1.3 多列聚合最终代码2. 单列多重聚合2.1 前情提要2.2 尝试进行本地单列多重聚合2.3 单列多重聚合最终代码3. 多列多重聚合4. 总结与整理Spark代码可读性与性能优化——示例七(GroupBy、ReduceByKey)接第六篇,如......原创 2019-11-27 04:33:41 · 5096 阅读 · 1 评论 -
MPP架构数据库优化总结——华为LibrA(MPPDB、GuassDB)
大数据在关系型数据处理这块,为了能够快速的查询、写入海量的数据,通常会采用MPP (Massively Parallel Processing)架构的分布式数据库。华为LibrA(MPPDB、GuassDB)与GreenPlum正是这样一款产品。通常实际生产环境中,每张表会存入海量的数据(例如我这里会有4TB、8TB、14TB等大小的表),为了解决这些存有海量数据的表的性能问题,需要给出很多优化方案,在这里我总结出工作中常用的一些优化手段。原创 2019-09-21 16:43:34 · 23402 阅读 · 4 评论 -
布隆过滤器(BloomFilter)——应用(三)
文章目录布隆过滤器(BloomFilter)——应用(三)1. 分布式爬虫2. 大型NoSQL数据库3. 电子邮件过滤布隆过滤器(BloomFilter)——应用(三)1. 分布式爬虫简介大型爬虫项目一般会采用分布式架构,以多个节点协作的方式进行,以达到快速、高效地爬取海量网页数据的目的。要进行协作,那就需要一个分布式中间件,用于相互通知。分布式爬虫项目一般将已经爬取的网址存储与中间件...原创 2019-09-11 12:36:34 · 3602 阅读 · 0 评论 -
数据序列化框架——protobuf
文章目录数据序列化框架——protobuf1. 概览2. 探寻protobuf设计的原因3. 使用 protobuf 示例数据序列化框架——protobuf1. 概览简介 protobuf全称Protocol Buffers,是Google的数据交换格式(协议),用于将数据序列化,在不同服务器之间进行高效的传输。如果你不是很理解,做个类比,我...原创 2019-08-21 18:19:12 · 3843 阅读 · 0 评论 -
布隆过滤器(BloomFilter)——原理(二)
文章目录布隆过滤器(BloomFilter)——原理(二)1. HashSet、HashMap数据结构简介2. BloomFilter的结构3. 关于BloomFliter一些疑惑的解释布隆过滤器(BloomFilter)——原理(二)1. HashSet、HashMap数据结构简介为了方便对比,所以我们先来看一下实现同类功能、常用的集合框架。因为HashSet一般由value为同一个Ob...原创 2019-08-19 23:39:18 · 3744 阅读 · 0 评论 -
布隆过滤器(BloomFilter)——简介(一)
文章目录布隆过滤器(BloomFilter)——简介(一)1. 基本概念2. BloomFilter和HashSet的性能比较3. BloomFilter使用示例布隆过滤器(BloomFilter)——简介(一)1970年布隆提出了BloomFilter,它被用作对数据进行初级的过滤,降低过滤数据的成本。BloomFilter就像粗糙的大筛子一样,使用它过滤细沙,先将所有的沙石倒进大筛子,能...原创 2019-08-17 02:20:37 · 3884 阅读 · 0 评论 -
《Spark高级数据分析》——预测森林植被(决策树、随机森林)
文章目录《Spark高级数据分析》——预测森林植被(决策树、随机森林)0. 简介1. 数据准备2. 训练决策树模型3. 预测森林植被4. 利用网格搜索与交叉验证API5. 完整代码《Spark高级数据分析》——预测森林植被(决策树、随机森林)0. 简介来源: 《Spark高级数据分析》原书GitHub地址: https://github.com/sryza/aas内容简述:利用Spar...原创 2019-06-07 21:37:09 · 4570 阅读 · 1 评论 -
《Spark高级数据分析》——音乐推荐(ALS算法)
文章目录《Spark高级数据分析》——基于ALS算法的音乐推荐0. 简介1. 数据准备2. 训练ALS模型3. 为用户推荐音乐家4. 利用网格搜索与AUC评分5. 完整代码《Spark高级数据分析》——基于ALS算法的音乐推荐0. 简介来源: 《Spark高级数据分析》原书GitHub地址: https://github.com/sryza/aas内容简述:利用Spark中ALS算法,...原创 2019-05-26 00:47:04 · 5096 阅读 · 2 评论 -
Spark代码可读性与性能优化——示例六(groupBy、reduceByKey、aggregateByKey)
文章目录Spark代码可读性与性能优化——示例六(GroupBy、ReduceByKey)0. 需求:统计历年全国高考生中数学成绩前100名1. 数据示例2. 存在问题的代码示例3. 如何解决代码中的问题?4. 最终代码,以及附其他代码Spark代码可读性与性能优化——示例六(GroupBy、ReduceByKey)0. 需求:统计历年全国高考生中数学成绩前100名1. 数据示例i...原创 2019-05-16 02:03:10 · 5607 阅读 · 1 评论