自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

LiuYangCSND的博客

原创 MapReduce的Shuffle过程详解（简单明了）

读者可先粗略地看看流程图，在结合下面的文字详解，希望帮助到大家。一、流程图二、针对流程图的详解1、 Input阶段：输入file1和file2两个文件： file1文件里有这些数据：hadoop hive hbase spark sparkhadoop hadoop hadoop file2文件里有这些数据：hue ...

2020-01-13 13:40:32 1296

原创浅谈数据仓库,数据中台,数据湖三者之间的区别,

数据湖是一种存储和管理各种类型和格式的数据的架构，包括结构化数据、半结构化数据和非结构化数据。数据湖的目标是集中存储和管理所有的数据，以提供更灵活、可扩展和多样化的数据分析和应用。数据仓库适用于传统的批量分析和报表需求，数据中台适用于数据整合和共享的场景，数据湖适用于灵活和多样化的数据分析和应用场景。数据仓库、数据中台和数据湖是三种不同的数据管理和存储架构，它们在数据存储、数据处理和数据应用等方面有一些区别。数据湖是一种存储和管理各种类型和格式的数据的架构，以灵活、可扩展和多样化的方式支持数据分析和应用。

2023-06-23 23:14:06 629

原创 order by、sort by、distribute by和cluster by 的区别,使用场景

Hive会将数据按照指定的列进行划分和排序，每个划分内的数据是有序的，但不同划分之间的顺序是未定义的。它类似于distribute by，但它会尝试将数据按照指定的列进行排序，并将相邻的值放置在相同的分区中。在Hive中，order by、sort by、distribute by和cluster by是用于数据排序和分区的关键字，它们在语义和使用场景上有一些区别。使用场景：当需要将数据按照指定的列进行分区和排序，并且希望相邻值在同一分区中时，可以使用cluster by。

2023-06-22 12:32:31 2602 1

原创 Parquet、ORC 的区别

Parquet和ORC是两种常用的列式存储格式，用于在大数据环境中高效地存储和查询数据。

2023-06-22 12:13:03 2118

原创 RDD序列化，闭包

1、闭包检查从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 Executor端执行。那么在 scala 的函数式编程中，就会导致算子内经常会用到算子外的数据，这样就形成了闭包的效果，如果使用的算子外的数据无法序列化，就意味着无法传值给 Executor端执行，就会发生错误，所以需要在执行任务计算前，检测闭包内的对象是否可以进行序列化，这个操作我们称之为闭包检测。Scala2.12 版本后闭包编译方式发生了改变2、序列化方法和属性从计算的角度, 算子以外的

2021-07-06 09:44:36 282

原创 DataFrame、DataSet、RDD之间的关系

1、RDD、DF、DS的关系RDDSparkCore中的数据结构RDD【T】：有泛型，但是不支持Schema数据可以以不同的类型存储在RDD中，但是没有Schema信息RDD【String】：文件的每一行就是一个String对象可能这一行有4个字段，RDD没有schema，无法对字段进行处理RDD【（String，Int）】存储：数据RDD不知道这条数据中有几个字段的不能按照字段进行处理DataFrameSparkSQL早期的数据结构DataFrame【

2021-07-05 16:31:08 332

原创简述RDD

一、RDD是什么？1、简述RDD是什么？弹性分布式数据集： resilient distributed dataset (RDD)弹性：RDD的数据可以被缓存在内存中，长久存在。如果内存不足，可以将数据缓存在磁盘中。分布式：这个集合中的数据是分散在不同机器节点上的。数据集：数据的集合。总结：就是一个可以将数据存储在分布式内存中的数据集合。功能：用于实现将Spark计算的数据构建分布式，实现分布式的任务计算。Spark将所有读取进来的数据都封装在RDD这个数据结构中，变成分布式的数据。

2021-07-05 15:01:36 756

原创 Scala基础编程

Scala编程第1阶段：基础语法第2阶段：面向对象（掌握书写）第3阶段：高级特性（重点）第4阶段：并发编程（了解）scala语言的定位：1、在大数据开发中，使用最多的语言：java 针对一些高端企业，会要求开发人员使用scala2、做为大数据开发(综合应用)人员，需要掌握多门语言：java、python、scala （任意两种）3、在大家进入就业阶段时，集团通过调研，企业还是使用java4、掌握书写、能看懂后续spark底层源码（spark底层源代码：scala

2021-07-01 16:23:34 721

原创 SparkCore算子整理

def glom(): RDD[Array[T]]

2021-06-30 17:56:47 362

原创简述Kafka的生产者、消费者、分区副本机制、存储。。。

一、Producer：生产者，负责往Kafka的Topic中生产数据的。二、Topic：主题，Kafka中用于区分数据的分类例如：用户行为数据的Topic业务数据的Topic爬虫数据的TopicKafka：类比于数据库存储的，Topic可以理解为表的概念三、Consumer：消费者，用于从Kafka的Topic中消费数据的，然后进行处理1、任何一个消费者都可以消费Kafka中的多个主题。2、任何一个Topic都可以被多个消费者消费。3、每个消费者消费某个主题，默认都只能消费主题中的

2021-06-23 11:10:42 429

原创如果某台机器宕机了，Kafka、Hbase、HDFS怎么保证数据安全？

一、HDFS的某台DataNode宕机了，数据是否能再次读到，怎么实现的？能HDFS上所有的数据块都有副本，副本存储在不同的机器上，如果某个数据块的某个副本丢失了，其他机器还有别的副本。NameNode会校验丢失的数据并恢复二、Hbase的某台Regionserver宕机了，数据是否能再次读到，怎么实现的？能如果某台Regionserver宕机了，Master会监控到宕机，就会根据元数据将这个Regionserver上所有的region分区恢复到别的Regionserver上m

2021-06-22 15:49:23 693

原创简述Kafka的特点

一、可靠性：分布式结构存储数据，构建多台kafkaServer集群分布式存储：往kafka中生产数据时，必然这个数据被分布式存放了。分区：每一个主题Topic都可以有多个分区当生产者往主题中生产数据时，会写入不同的分区每个分区存储在不同的机器上每一条数据会根据分区规则写入对应的分区二、可扩展性：横向扩展，机器不够加机器三、耐用性：Kafka中的数据分区存储在每台机器的磁盘上的，数据存储在Kafka中不易丢失。为什么我们以前看到的读写磁盘都比较慢？磁盘中分散存放的，牺牲大量

2021-06-22 15:21:13 2752

原创求回文数 java

给你一个整数 x ，如果 x 是一个回文整数，返回 true ；否则，返回 false 。回文数是指正序（从左向右）和倒序（从右向左）读都是一样的整数。例如，121 是回文，而 123 不是。public boolean isPalindrome(int x) { if(x<0) return false; int rem=0,y=0; int quo=x; while(quo!=0){

2021-06-22 14:28:42 134

原创在该数组中找出和为目标值 target 的那两个整数

给定一个整数数组 nums 和一个整数目标值 target，请你在该数组中找出和为目标值 target 的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是，数组中同一个元素在答案里不能重复出现。你可以按任意顺序返回答案。示例 1：输入：nums = [2,7,11,15], target = 9输出：[0,1]解释：因为 nums[0] + nums[1] == 9 ，返回 [0, 1] 。示例 2：输入：nums = [3,2,4], target = 6

2021-06-22 14:06:25 575

原创 Spark和MapReduce的区别

我们在面试中经常会被问到，Spark和MapReduce的区别？那么今天洋哥就带你们扒一扒…1、Spark的由来分布式计算的发展过程：HPC：高性能计算将一堆服务器的硬件放在一起构建计算云计算：虚拟化技术分布式计算平台：将CPU、内存、网络、磁盘通过分布式软件实现合并||硬件配置越来越高，价格越来越低演变：不断的让数据价值最大化第一代计算MapReduce：基于硬盘，适合于廉价的机器，硬件性能要求不高分钟以上第二代计算Impala/Presto

2021-06-22 13:58:16 969

原创 Hive性能调优的多样性之SQL对性能的影响

前言：谈及一项技术的优化，必然是一项综合性的工作，它是多门技术的结合。在这里我将会用代码来演示各类优化技巧，目的在于演示Hive调优的多样性，如改写SQL、调整数据存储的文件块、改变数据的存储格式、Hive表的设计等方面。SQL对性能的影响1. 1.1 数据准备首先我们在Hive上建两张内部表student_tb_txtstudent_sc_tb_txt1. 1.2union案例在该案例中查询student_tb_txt 表，每个年龄段最晚出生和最早出生的人的出生日期，并将其存入表 stud

2021-06-18 13:46:22 385

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

数据工程师~老洋

博客等级

码龄8年

16
原创

25
点赞

47
收藏

4
粉丝

关注

私信

分类专栏

Spark 4篇
大数据 6篇
设计模式
Kafka 2篇
数据结构 2篇
Java 2篇
Hive性能调优 1篇

最新评论

order by、sort by、distribute by和cluster by 的区别,使用场景
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

提示

确定要删除当前文章？

取消删除