Big Data Computing
文章平均质量分 90
大数据计算
cuiyaonan2000
躬身入局,高在造势。 器不锐,可磨。 术不静,可学。 道不强,可悟。 法不高,可练。 时不逢,可待。谋事在人,成事在天。
展开
-
FLinkCDC
CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到中以供其他服务进行订阅及消费。原创 2023-10-25 15:25:55 · 720 阅读 · 0 评论 -
DataX: Ⅱ
这里使用的是master分支,因为官网上并没有release分支,所以先用master分支吧,可能会有问题cuiyaonan2000@163.com。原创 2023-09-26 16:04:51 · 351 阅读 · 0 评论 -
DataX
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。原创 2023-09-25 17:16:37 · 248 阅读 · 0 评论 -
ChunJun(OldNameIsFlinkX)
FlinkX将不同的数据源库抽象成不同的Reader插件,目标库抽象成不同的Writer插件,具有以下特点基于Flink开发,支持分布式运行;双向读写,某数据库既可以作为源库,也可以作为目标库;支持多种异构数据源,可实现MySQL、Oracle、SQLServer、Hive、Hbase等20多种数据源的双向采集。高扩展性,强灵活性,新扩展的数据源可与现有数据源可即时互通。应用场景FlinkX数据同步插件主要应用于大数据开发平台的数据同步数据集成模块,通常采用将底层高效的同步插件和。原创 2023-09-20 14:35:24 · 645 阅读 · 0 评论 -
Commands Of Hadoop
持续整理下常用的命令cuiyaonan2000@163.com。原创 2023-07-25 17:36:33 · 758 阅读 · 0 评论 -
Tencent : TBDS
腾讯大数据处理套件(Tencent Big Data Suite,TBDS)是基于腾讯多年海量数据处理经验,对外提供的可靠、安全、易用的大数据处理平台。您可以借助 TBDS 在公有云、私有云、非云化环境,根据不同数据处理需求选择合适的大数据分析引擎和相应的实时数据开发、离线数据开发以及算法开发服务,来构建您的数据仓库、用户画像、精准推荐、风险管控等大数据应用服务。原创 2023-07-24 16:13:37 · 998 阅读 · 0 评论 -
Hadoop: High Available
即HDFS 支持一主一备的架构最多支持 5 个,官方推荐使用 3 个基于Hadoop3.x. 总的来说就是要借助Zookeeper来实现高可用,然后就是编辑Hadoop的配置文件已实现高可用cuiyaonan2000@163.com。原创 2023-07-19 17:10:56 · 999 阅读 · 0 评论 -
Flink: checkPoint
依据1.17.1 最新版本的内容研究下期运作原理,总的来说其实就是设置一些参数,这些参数就会影响到如何存储checkpoint的问题.用起来没什么难的,参数配置的组合到是挺多cuiyaonan2000@163.com。原创 2023-07-04 18:01:17 · 972 阅读 · 0 评论 -
Log On Yarn
整理下各种部署在Yarn上的应用如何查看日志的问题.当然我觉得使用自定义的日志收集器来收集就更好了.这样子也解决了集群日志的问题cuiyaonan2000@163.com。原创 2023-06-27 16:34:21 · 326 阅读 · 0 评论 -
Flink On Yarn
Flink的Standalone和on Yarn模式都属于集群运行模式,但是有很大的不同,在实际环境中,使用Flink on Yarn模式者居多。另Flink On Yarn要做的事情不多, 总的来说就是使用Flink包的自带命令提交Jar包到Yarn就行了cuiyaonan200)@163.com。原创 2023-06-26 17:15:15 · 827 阅读 · 0 评论 -
TableAPI And Function
窗口是使用子句定义的,并且需要使用as子句来指定别名(窗口一定要设置别名cuiyaonan2000@163.com为了按窗口对表进行分组,窗口别名的引用必须像常规分组属性一样在子句中(如此这般相当于增加了一个字段,并按照该字段进行分组,分组的条件是该字段 + 时间窗口的开始和结束cuiyoanna2000@163.com以下示例展示了如何在表上定义窗口聚合。.window([GroupWindow w].as("w")) // 定义窗口并指定别名为 w。原创 2023-06-15 17:57:15 · 826 阅读 · 0 评论 -
Flink TableAPI Aggregation And DataType
这里整理下聚合的优化选项 以及 数据类型。原创 2023-06-14 11:17:07 · 1213 阅读 · 0 评论 -
Flink TableAPI Window and Watermarket
本次主要是弄清楚.批流统一 的处理方式,因为它是使用SQL来操作批流计算的.所以它怎么设置算子并行度?如何设置窗口?如何处理流式数据?等等 有很多疑问.我还是觉得直接使用流计算的API更好.流批一体API最终也是转换成流式计算,最主要的是使用sql来设置算子或者窗口,并不直观. 本身就是转换流操作,我们可以知接使用流.另外,在1.12版本说的是流批一体并不成熟,现在到了1.17虽然没说不成熟,但是还是有BUG .截图如下。原创 2023-06-13 17:21:58 · 1223 阅读 · 0 评论 -
Flink TableAPI Kafka Demo
以官网的例子为起点,选用Kafka为source和sink ,了解下批流统一的使用cuiyaonan2000@163.com批流统一注册连接外部资源或者说是注册一个虚拟表或者实体表有2种方式,一种就是 如下例子用的使用SQL等方式,领完一种就是使用TableApi的方式,但是官网关于TableApi的方式的说明甚少cuiyaonan2000@163.com。原创 2022-03-28 16:38:20 · 2360 阅读 · 0 评论 -
Flink TableAPI Description Ⅱ
基于最新的v1.14.4 梳理下批流统一的用法cuiyaonan2000@163.com官方的文档看的头晕,要把所有的都穿起来还是有难度.先基于其它码友的经验文章,在去看官网我觉得效果更好.批流统一总的来说,使用上层的API以操作传统关系型数据库表的方式来进行计算。原创 2022-03-24 18:04:42 · 3340 阅读 · 0 评论 -
Mobile Computing
序言整理下移动计算在大数据计算框架中的应用,以及实现的基本条件.确定是否只能基于HDFS的分布式存储,才能实现移动计算cuiyaonan2000@163.comHDFSHDFS提供给程序员使用的API,主要是FileSystem和DFSClient. 两个类提供了用于创建目录,创建文件,取得文件信息的方法.FileSystem是高层的一个类,DFSClient是一个底层的类,FileSystem使用了DFSClient,DFSClient可以比FileSystem相比拿到一些更详细的原创 2022-03-24 14:12:32 · 1478 阅读 · 0 评论 -
Flink TableAPI Create Table
序言基于最新的v1.14.4 梳理下批流统一的用法cuiyaonan2000@163.com参考资料:概念与通用 API | Apache FlinkCatalog标识符由三个部分组成:catalog 名称、数据库名称以及对象名称。如果 catalog 或者数据库没有指明,就会使用当前默认值Table可以是虚拟的(视图VIEWS)也可以是常规的(表TABLES)。临时表(Temporary Table)视图VIEWS可以从已经存在的Table中创建,一般是 ...原创 2022-03-23 18:12:36 · 2216 阅读 · 0 评论 -
SparkSql DataSet Api
序言整理一下SparkSql DataSet Api的使用方式与心得cuiyaonan2000@163.com参考资料:Spark dataset api 列表 & 练习_beTree_fc的博客-CSDN博客原创 2022-03-21 15:31:16 · 2509 阅读 · 0 评论 -
SparkSql Handle Data Ways
序言整理除了SparkSql之外的,分布式计算概念以及对应他们配合SparkSql的使用方法cuiyaonan2000@163.com参考:大数据入门之分布式计算框架Spark(2) -- Spark SQL_XQ_WYL的博客-CSDN博客.原创 2022-03-18 11:36:10 · 1155 阅读 · 0 评论 -
Flink : Custom Source
序言官网提供了几种连接器,帮助我们直接配置Kafka,ElasticSearch数据源.但是在V1.14.3.之前使用的Kafka连接器已经被弃用了~~~短短几个版本的事情,变化可以真不小.cuiyaonan2000@163.com基于V1.14.3 我们梳理下自定义数据源参考文档:数据源 | Apache Flink...原创 2022-03-10 17:01:06 · 2175 阅读 · 0 评论 -
Flink TableAPI model
序言针对版本v1.14.3 ,之前的都是基于v1.12 .Flink的官方文档的变动不是一般的小.而且版本升级也挺快短短4个月从1.12发布到了1.14.3 . 总是该文是基于v1.14.3版本cuiyaonan2000@163.com该批流统一是基于DataStream的官方最新文档梳理,版本v1.14.3cuiyaonan2000@163.com参考资料:执行模式(流/批) | Apache Flink执行模式(流/批)DataStream API 支持不同的运行时执行模式,你原创 2022-03-09 14:52:00 · 2105 阅读 · 0 评论 -
Launch SparkSql Task With SpringBoot
序言参考资料:Spark 介绍_w3cschool原创 2022-02-16 13:57:46 · 1376 阅读 · 4 评论 -
Using Of Commands Of Spark
序言简单介绍下Spark的命令,在理解Spark命令的同时,也会顺带理解Spark的服务和功能cuiyaonan2000@163.comspark-submit这个就是往Spark集群中提交任务的命令和入口,且同时支持Spark On Yarn 和 Spark Standalone两种模式.在我们搭建好服务器后,官网提供了一些用例供我们测试理解使用.如下所示:./spark-submit --class org.apache.spark.examples.SparkPi --ma原创 2021-12-06 15:37:09 · 162 阅读 · 0 评论 -
SparkSql On Hive
序言sql 在 hive的使用具体还分为了2种解决方案: spark sql:是hive上的sql语句,spark sql用的是spark 引擎。Spark SQL的前身是Shark,是给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,其对Hive有太多依赖。 hive on spark:是hive上的sql语句,hive on spark是hive借用spark的引擎。 Hive on Spark是由Cloudera发起,将Hive的查询作为Spark的任务提交到.原创 2021-05-08 11:47:59 · 933 阅读 · 0 评论 -
Hive On Spark
序言之前写的一篇Ⅰ.今天看了一下感觉有很多不完善和错误的地方.这里在写一篇cuiyaonan2000@163.com 两者可以结合一起看用于理解学习Hive On Spark这个意思是将Hive的执行引擎替换成spark.默认的是MR,且我们在启动Hive的时候会看到如下的内容(所以我们应该用spark来做为执行引擎cuiyaonan2000@163.com)既然要换成spark,那我们知道Hadoop自带的Mr是不能用了,且不包含spark的相关服务,所以配置修改,增加spa.原创 2021-11-30 18:16:14 · 5052 阅读 · 0 评论 -
Flink: Parallelism & Slot
序言因为所以.Flink大数据计算的横向扩展是一定要考虑Parallelism 和Slot的.slot决定了parallelism的可行性以及数量.如果强行分配Paralelism则会报错显示资源不够cuiyaonan2000@163.comParallelismParallelism是我们算子的并行度的设置,默认是1.即启动多少个线程并行执行.同时有3个层级可以设置他们的关系是:算子设置并行度 > env 设置并行度 > 配置文件默认并行度算子设置并行度.原创 2021-10-28 15:32:52 · 1354 阅读 · 0 评论 -
Flink: State
通俗的将Flink的状态即为存储算子中的子任务的中间值,相当于我们web的session.这里需要注意的是子任务是个线程,且这个线程在不断地处理数据,那flink的state就是存储线程中间变量的一个解决方案cuiyaonan2000@163.com参考版本为:v1.13.2。原创 2021-10-26 18:19:47 · 1153 阅读 · 0 评论 -
Flink: Function And Rich Function
序言 了解了Flink提供的算子,那我们就可以自定义算子了.自定义算子的目的是为了更加灵活的处理我们的业务数据,并将满足条件的结果Sink到目标存储地cuiyaonan2000@163.com Function有2中类型即 Function 和 Rich Function .从字面意思我们可以了解 Rich Function 肯定是比Function提供了更多的功能的.参考版本为: v1.13.2官网地址:用户自定义 Functions | Apache Flink...原创 2021-10-26 16:28:48 · 1325 阅读 · 0 评论 -
Flink:算子
整理一下flink的任务吧.我们在搞定了source和sink后.那算子就很重要了.为啥子呢?因为算子就是我们处理source的过程,最后需要sink到指定的存储空间里.cuiyaonan200@163.com本文基于官网v1.13.2的版本整理。原创 2021-10-25 18:11:52 · 1459 阅读 · 0 评论 -
Flink: Window And WaterMark
序言在使用flink的时候,我们在整合Kafka作为Source的时候需要设置watermarket.否则就不能持续行的去消费.举一反三,watermarket在其它技术整合的时候也许要进行设置.cuiyaonan2000@163.com.window:是Flink将流数据或者批量数据根据时间(开始时间,结束时间)划分的多个段叫做bucket.(批量数据对于flink是特殊的流式数据,至于为什么将数据流划分成段可以自己百度) watermark:中文译名是水位线,它的存在是为了解决flink将数据原创 2021-10-12 18:18:46 · 630 阅读 · 0 评论 -
Spark环境搭建
序言搭建个spark on yarn的环境。官方网址:http://spark.apache.org/downloads.html下载Spark的版本的时,首先选择对应的Hadoop版本,然后注意需要的scala版本Scala环境搭建官方下载网址https://www.scala-lang.org/download/2.12.13.html确保你本地已经安装了 JDK 1.5 以上版本,并且设置了 JAVA_HOME 环境变量及 JDK 的 bin 目录。#下载spa.原创 2021-04-25 13:25:30 · 501 阅读 · 1 评论 -
spark简介
序言Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相原创 2021-04-23 14:23:05 · 13367 阅读 · 2 评论 -
Flink TableAPI Description
序言Flink的版本号为:1.12 根据最新的版本来研究下Flink的批流统一其实我最想解决的就是Flink能否像Hive 一样来处理大批量数据拆分计算,最后合并。虽然我知道Flink跟MapReduce都是运行于Yarn的,Hive是基于MapReduce来做大批量任务分布式计算的。参考网站:https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/table/概览Apache Flink 有两..原创 2021-03-17 16:57:35 · 1667 阅读 · 0 评论 -
Flink: Kafka source & sink
序言Kafka作为Flink的数据源来进行Demo的制作。参考:https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/connectors/kafka.htmlKafka连接器版本选择连接器JARFlink-kafka-connector用来做什么?Kafka中的partition机制和Flink的并行度机制结合,实现数据恢复Kafka可以作为Flink的source和sink任务失..原创 2021-03-09 14:06:30 · 1400 阅读 · 0 评论 -
Flink集群搭建
序言Flink 是一个分布式系统,需要有效分配和管理计算资源才能执行流应用程序。(这句话很重要,资源计算,资源的分配不是Flink当前强项cuiyaonan2000@163.com)它集成了所有常见的集群资源管理器,例如Hadoop YARN、Apache Mesos和Kubernetes,但也可以设置作为独立集群甚至库运行。-----------------------Flink推荐YARN,K8S,Mesos的资源管理器,同时自己也提供自己的资源管理器Flink的集群环境根据有三种形式:原创 2021-03-05 18:08:00 · 7323 阅读 · 0 评论 -
Flink 流数据处理
序言基于官网教程整理的一个教程。基于Flink1.12.0版本。参考资料:https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/try-flink/index.html ------官网安装教程流定义在自然环境中,数据的产生原本就是流式的。无论是来自 Web 服务器的事件数据,证券交易所的交易数据,还是来自工厂车间机器上的传感器数据,其数据都是流式的。但是...原创 2021-03-04 15:24:28 · 3721 阅读 · 1 评论 -
Storm在Java中的应用
序言 Storm 说的是 语言无关性: Storm的topology和消息处理组件(Bolt)可以用任何语言来定义, 这一点使得任何人都可以使用storm.这里将说明下StormI在Java中的使用,java程序是基于Springboot.这最重要的是storm如何拆解任务.其它的都是流程化的东西.(cuiyaonan2000@163.com)参考资料:https://www.cnblogs.com/gouyg/p/storm-springboot.html https://ww...原创 2020-10-12 19:03:33 · 780 阅读 · 0 评论 -
Storm工作原理&集群环境搭建
序言 Storm是Twitter开源的分布式实时大数据处理框架,最早开源于github,从0.9.1版本之后,归于Apache社区,被业界称为实时版Hadoop。 Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。参考资料:https://www.cnblogs.com/xuwujing/p/8584684.html https://blog.csdn.net/u011082453/article/...原创 2020-09-30 15:41:52 · 1555 阅读 · 0 评论 -
Flink简介
序言大数据运算主要有2个领域:1:流式计算 2:批量计算。在数据操作层面可以看做如下的两类有限数据集:数据大小有限(固定大小,比如固定的文件),用于批处理, 无限数据集:数据持续增长(属于无限大小,比如kafka中的日志数据,总是有新数据进入,并且不知道什么时候结束或者是永远不结束),用于流式处理。(Storm就是流式处理的解决方案)参考文章:https://flink.apache.org/zh/flink-architecture.html ...原创 2021-03-03 15:44:47 · 9344 阅读 · 4 评论
分享