自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 SeaTunnel

SeaTunnel版本:V1.0 第 1 章 Seatunnel 概述1.1 SeaTunnel 是什么SeaTunnel 是一个简单易用的数据集成框架,在企业中,由于开发时间或开发部门不通用,往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行。数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。SeaTunnel 支持海量数据的实时同步。它每天可以稳定高效地同步数百亿数据。并已用于近 100 家公司的生产。SeaTunnel的前身是

2022-04-22 00:50:36 3407 1

原创 SparkSQL

SparkSQL第1章 Spark SQL概述1.1 什么是Spark SQL1.2 为什么要有Spark SQL1.3 Spark SQL原理1.3.1 什么是DataFrame1)DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。2)DataFrame与RDD的主要区别在于,前者带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Pe

2022-04-21 13:35:07 452

原创 sparkcore

SparkCore版本:V3.0第1章 RDD概述1.1 什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.1.1 RDD类比工厂生产1.1.2 WordCount工作流程1.2 RDD五大特性第2章 RDD编程2.1 RDD的创建在Spark中创建RDD的创建方式可以分为三种:从集合中创建RDD、从外部存储创建RDD

2022-04-21 13:32:53 163

原创 Spark入门

Spark入门第1章 Spark概述1.1 什么是Spark回顾:Hadoop主要解决,海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2 Hadoop与Spark历史Hadoop的Yarn框架比Spark框架诞生的晚,所以Spark自己也设计了一套资源调度框架。1.3MR与Spark框架对比1.4 Spark内置模块Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark

2022-04-21 13:25:33 395

原创 Seatunnel

Seatunnel源码解析(6) -Web接口启动Seatunnel2022-04-13 09:07:15 【張不惑】Seatunnel源码解析(6) -SparkLauncher启动SeatunnelSpark应用需求公司在使用Seatunnel的过程中,规划将Seatunnel集成在平台中,提供可视化操作。因此目前有如下几个相关的需求:可以通过Web接口,传递参数,启动一个Seatunnel应用可以自定义日志,收集相关指标,目前想到的包括:应用的入流量、出流量;启动时间、结束时间等在任务

2022-04-20 22:46:22 945

原创 启动脚本1

xcall.sh#! /bin/bashfor i in hadoop102 hadoop103 hadoop104do echo --------- $i ---------- ssh $i "$*"donecluster.sh#!/bin/bashcase $1 in"start"){ echo ================== 启动 集群 ================== #启动 Zookeeper集群 zk.s

2022-04-03 15:34:28 2353

原创 用户行为数据采集

电商数仓 用户行为数据采集第1章 数据仓库概念第2章 项目需求及架构设计2.1 项目需求分析2.2 项目框架2.2.1 技术选型2.2.2 系统数据流程设计2.2.3 框架版本选型2.2.4服务器选型2.2.5 集群资源规划设计2)测试集群服务器规划服务名称 子服务 服务器hadoop102 服务器hadoop103 服务器hadoop104HDFS NameNode √ DataNode √ √ √SecondaryNameNode √Yarn NodeManag

2022-01-24 13:28:26 1448

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除