Spark
文章平均质量分 83
spark
章鱼哥TuNan&Z
追求幸福,探索未知,不卑不亢,沉稳可靠。所有技能都会因为不用而退化。避免这种损失的正确对策是使用一些类似于飞行员训练中用到的飞行模拟器那样的东西。这种模拟器让飞行员能够持续地操练所有很少用到但必须保证万无一失的技能。明智的人会终身操练他全部有用然而很少用的上的、大多数来自其他学科的技能,并把这当做事一种自我提高的责任。如果他减少了他操练的技能的种数,进而减少了他掌握的技能的种数,那么他自然会陷入“铁锤人倾向”引起的错误之中。他的学习能力也会下降,因为他需要用来理解新经验的理论框架已经出现了裂缝。对于一个善于思考的人而言,把他的技能编排成一张检查清单,并常常将这张清单派上用场,也是很重要的。
展开
-
看穿flatMap 和 map 的区别
看穿flatMap 和 map 的区别个人理解:map:map方法返回的是一个object,map将流中的当前元素替换为此返回值;flatMap:flatMap方法返回的是一个stream,flatMap将流中的当前元素替换为此返回流拆解的流元素;官方解释:map:Returns a stream consisting of the results of applying the given function to the elements of this stream.返回一个流,包含给定函数转载 2021-11-02 17:13:43 · 107 阅读 · 0 评论 -
kafka里存的是mysql的binlog通过canal转存的Message,各位大佬有这个Message的解析方法
kafka里存的是mysql的binlog通过canal转存的Message,Message的解析方法保存方法01-实时ETL开发之转换POJO【思路】分析从Kafka消费数据(JSON转换MessageBean对象),哪些字段是关系值。Canal采集MySQL数据库数据:12个字段Canal采集数据,核心数据字段Canal采集MySQL数据库数据时,业务中关心字段:与OGG采集数据关心字段基本一致第一个字段:table,表的名称,对哪个表进行操作第二个字段:type,数据操作原创 2021-05-07 20:55:41 · 668 阅读 · 0 评论 -
大数据之调度系统-Azkaban
大数据之调度系统-Azkaban数据仓库与Python大数据 5天前以下文章来源于大数据与人工智能 ,作者HappyMint01常用的调度框架及其对比常用的调度平台框架有Oozie、Airflow、Zeus、DolphinScheduler、Azkaban 等。几种调度系统简单对比:Oozie 目前是托管在 Apache 基金会的,开源。通过 XML 文件来定义 DAG依赖,作业配置复杂。Airflow 目前是托管在 Apache 基金会的,开源。python 语言开发,通过 python脚原创 2021-04-19 17:37:13 · 1232 阅读 · 0 评论 -
SparkSQL的3种Join实现
SparkSQL的3种Join实现引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。对于Spark来说有3中Join的实现,每种Join对应着不同的应用场景:Broadcast Hash Join : 适合一张较小的表和一张大表进行joinShuffle Hash Join : 适合一张小表和一张大表进行join,或者是两张小表之间的joinSort Merge Join :转载 2021-04-19 17:21:14 · 366 阅读 · 0 评论 -
Spark:StructStreaming
分布式计算平台Spark:StructStreaming一、回顾SparkStreaming基本原理本质还是SparkCore:基于RDD的离线批处理原理:划分微小时间单位的批处理ReceiverTask:将源源不断的数据流划分Block:默认200ms将每个Block的数据缓存在Executor的内存中将位置反馈给DriverDriver等到Batch时间:1s区别:Core按照触发函数来触发job的,按照时间来触发job的DStream:离散的数据流原创 2021-04-12 21:33:47 · 825 阅读 · 0 评论 -
Spark:Streaming
分布式计算平台Spark:Streaming一、回顾离线案例工作中开发代码流程或者方式SparkCore + SparkSQL:熟悉代码开发DSL:when(条件,成立的返回值).otherwise(不成立的返回值)SQL:with 别名 as (SQL) select * from 别名工具类补充:配置文件解析、IP解析工具类流式计算的介绍目的:实现实时数据流的处理,构建实时应用实时数据分析实时推荐系统实时风控系统实时物联网系统……保证:整个过程都是实原创 2021-04-12 15:29:41 · 130 阅读 · 0 评论 -
Spark:离线综合案例
分布式计算平台Spark:离线综合案例一、回顾SparkSQL使用开发接口DSL:使用函数来对表进行处理,类似于RDD的编程,表的体现:DF、DSSQL语法函数:select、where、groupBy、orderBy、limit、aggRDD的函数:map/filter/flatMapSQL:使用SQL语句来实现对表的处理,类似于Hive的编程,表的体现:DF/DS注册成视图、Hive表step1:将数据集注册为视图step2:通过SQL语句进行处理UDF函原创 2021-04-10 19:48:00 · 1952 阅读 · 1 评论 -
Spark:SQL(二)
分布式计算平台Spark:SQL(二)一、回顾SparkCore数据源Hadoop系列的数据源:Spark是调用了Hadoop的类来实现InputFormat:sparkContext.newAPIHadoopRDD(输入类,K,V)TableInputFormat封装了:表的对象【定义传递了表名】、Scan对象+Filter【根据查询条件】可以自定义scan对象,传递对表执行了scan操作,读取到所有的RowKey的数据【ResultScanner】将所有Row原创 2021-04-09 23:03:25 · 131 阅读 · 0 评论 -
Spark:SQL(一)
分布式计算平台Spar k:SQL(一)一、回顾Spark中RDD的常用函数分区操作函数:mapPartitions、foreachPartition功能:与map和foreach基本功能一致,这两个函数是对分区进行操作的应用:对RDD数据处理时,需要构建资源时重分区函数:repartition、coalesce功能:调节RDD分区的个数应用:repartition实现调大、coalesce降低分区个数聚合函数:reduce/fold/aggregate分布式聚原创 2021-04-08 12:52:04 · 813 阅读 · 0 评论 -
Spark Shuffle 前世今生
原创 2021-04-08 11:26:14 · 102 阅读 · 0 评论 -
Spark:Core(二)
分布式计算平台Spark:Core(二)一、回顾Spark集群环境开发流程:SparkCore、SparkSQL、SparkStreamingstep1:在IDEA中开发代码基于本地模式测试代码逻辑step2:打成jar放入HDFS为什么要放入HDFS存储需要实现在任何一台机器提交代码,都可以读取到对应的jar包step3:通过调度工具来进行自动化调度运行集群环境StandaloneYARN提交程序到集群spark-submit用法原创 2021-04-07 18:33:32 · 101 阅读 · 0 评论 -
RDD 函数
RDD 函数原创 2021-04-07 16:21:31 · 159 阅读 · 0 评论 -
Spark:Core(一)
分布式计算平台Spark:Core(一)问题:1.hadoop读数据的时候如何改变分区的大小2.rdd后边的分区是怎么变多、变少的;3.rdd分区数变化后exectur中的task是如何改变的一、 回顾Spark介绍什么是Spark?分布式计算框架功能与模块SparkCore:离线批处理:代码进行开发类似于MapReduce工作中:在IDEA中写代码,打成jar包放在集群中调度运行SparkSQL:交互式处理:SQL开发类似于Hive工作中:用于实现原创 2021-04-06 23:52:28 · 115 阅读 · 0 评论 -
Spark(一)
分布式计算平台Spark:基础入门20201216一、回顾大数据组件分布式存储Zookeeper:利用分布式存储系统实现小的核心数据的存储HDFS:离线大数据文件系统数据存储为了解决大数据存储问题:分布式磁盘Hive:离线数据仓库【表】为了解决统一化和规范化数据管理问题Redis:实时内存式NOSQL数据库【所有数据都在内存中】为了解决数据高并发和高性能读写问题HBASE:实时基于分布式内存的NoSQL数据库【内存+HDFS】基于性能和大原创 2021-04-05 23:17:13 · 226 阅读 · 0 评论 -
分布式计算平台Spark
分布式计算平台Spark:基础入门20201216一、课程大数据组件分布式存储Zookeeper:利用分布式存储系统实现小的核心数据的存储(加紧复习)抓紧复习HDFS:离线大数据文件系统数据存储(加紧复习)抓紧复习为了解决大数据存储问题:分布式磁盘Hive:离线数据仓库【表】为了解决统一化和规范化数据管理问题Redis:实时内存式NOSQL数据库【所有数据都在内存中】为了解决数据高并发和高性能读写问题HBASE:实时基于分布原创 2021-01-11 19:46:06 · 1306 阅读 · 0 评论 -
分布式计算平台Spark:Core(一)
分布式计算平台Spark:Core(一)文章目录分布式计算平台Spark:Core(一)一、课程回顾二、课程目标三、Standalone集群运行1、工作场景2、spark-submit3、本地模式提交4、Standalone集群提交四、Spark on YARN1、应用场景2、集群配置3、启动测试五、DeployMode1、问题与功能2、client3、cluster4、区别5、Spark on YARN上的区别6、main函数执行过程六、数据抽象RDD1、功能2、设计3、特性4、创建5、分区个数七、RD原创 2021-01-13 13:04:09 · 884 阅读 · 0 评论