大数据
文章平均质量分 77
数据工程师~老洋
路漫漫其修远兮,吾将上下而求索
展开
-
DataFrame、DataSet、RDD之间的关系
1、RDD、DF、DS的关系RDDSparkCore中的数据结构RDD【T】:有泛型,但是不支持Schema数据可以以不同的类型存储在RDD中,但是没有Schema信息RDD【String】:文件的每一行就是一个String对象可能这一行有4个字段,RDD没有schema,无法对字段进行处理RDD【(String,Int)】存储:数据RDD不知道这条数据中有几个字段的不能按照字段进行处理DataFrameSparkSQL早期的数据结构DataFrame【原创 2021-07-05 16:31:08 · 295 阅读 · 0 评论 -
Scala基础编程
Scala编程第1阶段:基础语法第2阶段:面向对象(掌握书写)第3阶段:高级特性(重点)第4阶段:并发编程 (了解)scala语言的定位:1、在大数据开发中,使用最多的语言:java 针对一些高端企业,会要求开发人员使用scala2、做为大数据开发(综合应用)人员,需要掌握多门语言:java、python、scala (任意两种)3、在大家进入就业阶段时,集团通过调研,企业还是使用java4、掌握书写、能看懂后续spark底层源码(spark底层源代码:scala原创 2021-07-01 16:23:34 · 682 阅读 · 0 评论 -
如果某台机器宕机了,Kafka、Hbase、HDFS怎么保证数据安全?
一、HDFS的某台DataNode宕机了 ,数据是否能再次读到,怎么实现的?能HDFS上所有的数据块都有副本,副本存储在不同的机器上,如果某个数据块的某个副本丢失了,其他机器还有别的副本。NameNode会校验丢失的数据并恢复二、Hbase的某台Regionserver宕机了 ,数据是否能再次读到,怎么实现的?能如果某台Regionserver宕机了,Master会监控到宕机,就会根据元数据将这个Regionserver上所有的region分区恢复到别的Regionserver上m原创 2021-06-22 15:49:23 · 616 阅读 · 0 评论 -
Spark和MapReduce的区别
我们在面试中经常会被问到,Spark和MapReduce的区别?那么今天洋哥就带你们扒一扒…1、Spark的由来分布式计算的发展过程:HPC:高性能计算将一堆服务器的硬件放在一起构建计算云计算:虚拟化技术分布式计算平台:将CPU、内存、网络、磁盘通过分布式软件实现合并||硬件配置越来越高,价格越来越低演变:不断的让数据价值最大化第一代计算MapReduce:基于硬盘,适合于廉价的机器,硬件性能要求不高分钟以上第二代计算Impala/Presto原创 2021-06-22 13:58:16 · 913 阅读 · 0 评论 -
Hive性能调优的多样性之SQL对性能的影响
前言:谈及一项技术的优化,必然是一项综合性的工作,它是多门技术的结合。在这里我将会用代码来演示各类优化技巧,目的在于演示Hive调优的多样性,如改写SQL、调整数据存储的文件块、改变数据的存储格式、Hive表的设计等方面。SQL对性能的影响1. 1.1 数据准备首先我们在Hive上建两张内部表student_tb_txtstudent_sc_tb_txt1. 1.2union案例在该案例中查询student_tb_txt 表,每个年龄段最晚出生和最早出生的人的出生日期,并将其存入表 stud原创 2021-06-18 13:46:22 · 335 阅读 · 0 评论 -
MapReduce的Shuffle过程详解(简单明了)
读者可先粗略地看看流程图,在结合下面的文字详解,希望帮助到大家。一、流程图二、针对流程图的详解1、 Input阶段: 输入file1和file2两个文件: file1文件里有这些数据:hadoop hive hbase spark sparkhadoop hadoop hadoop file2文件里有这些数据:hue ...原创 2020-01-13 13:40:32 · 1197 阅读 · 0 评论