Spark
今天,我和你拼了
严谨,认真,负责
展开
-
最近知识点汇总
最近知识点汇总一:hive调优(一般很少使用)1、HQL执行过程中最耗费资源的是join,减少join的数据量,会对性能有很大的提升,这里注意一定要学会关注执行计划。2、 行列裁剪:查询语句中只查询所需要的的列,忽略其他列,可以减少内存开销和中间表数据存储,ps:小技巧set hive.support.quoted.identifiers=None;select `(lat)?+.+` from ads_sjfx.temp_need_2380_table1_libo_20210906 limit原创 2021-09-10 17:18:01 · 181 阅读 · 0 评论 -
大数据技术之Spark内核解析(二)
大数据技术之Spark内核解析(二)一:Spark的通讯框架Spark通讯框架的概述Spark2.x 版本使用 Netty 通讯框架作为内部通讯组件。 spark 基于 netty 新的 rpc框架借鉴了 Akka 的中的设计,它是基于 Actor 模型, 如下图所示:各组件的关系图 Spark 通讯框架中各个组件( Client/Master/Worker) 可以认为...原创 2020-02-12 14:35:25 · 216 阅读 · 0 评论 -
大数据技术之Spark 内核解析(一)
大数据技术之Spark 内核解析一:Spark的内核概述Spark 内核泛指 Spark 的核心运行机制, 包括 Spark 核心组件的运行机制、 Spark任务调度机制、 Spark 内存管理机制、 Spark 核心功能的运行原理等, 熟练掌握Spark 内核原理,能够帮助我们更好地完成 Spark 代码设计,并能够帮助我们准确锁定项目运行过程中出现的问题的症结所在。核心组件...原创 2020-02-12 09:09:17 · 183 阅读 · 0 评论 -
大数据技术之Spark Streaming
大数据技术之Spark Streaming一:概述 1. 定义: Spark Streaming 用于流式数据的处理。Spark Streaming 支持的数据输入源很多,例如:Kafka,Flume、 Twitter、 ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语如: map、 reduce、 join、 window 等进行运算。而结果也能...原创 2020-02-10 21:30:13 · 244 阅读 · 0 评论 -
大数据技术之Spark SQL
大数据技术之Spark SQL一:Spark SQL的概述定义:Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程对象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。特点:易整合、统一的数据访问方式、兼容Hive、标准的数据连接DtaFrame的定义:与RDD类似,DataFrame也是一个分布式的数据容器。然而Datafra...原创 2020-02-09 15:12:15 · 334 阅读 · 0 评论 -
大数据技术之Spark Core的RDD(二)
大数据技术之Spark Core的RDD(二)一:双Value类型union(otherDattaset)案例作用:对源RDD和参数RDD求并集后返回一个新的RDD数据集需求:创建两个RDD,并求并集val rdd1 = sc.parallelize(1 to 5)val rdd2 = sc.parallelize(5 to 8)val rdd3 = rdd1.union(rdd...原创 2020-01-18 13:33:24 · 247 阅读 · 0 评论 -
大数据技术Spark之Spark Core(三)
大数据技术Spark之Spark Core(三)一:actionreduce(func) :作用: 通过 func 函数聚集 RDD 中的所有元素,先聚合分区内数据,再聚合分区间数据。collect():作用: 在驱动程序中,以数组的形式返回数据集的所有元素。count():作用: 返回 RDD 中元素的个数first():作用:返回RDD中的第一个元素take(n):作用:返回一个由...原创 2020-01-18 13:30:12 · 260 阅读 · 0 评论 -
Spark Core的RDD算子案例实操
Spark Core的RDD算子案例实操数据结构:时间戳,省份,城市,用户,广告。中间使用空格分隔1516609143867 6 7 64 161516609143869 9 4 75 181516609143869 1 7 87 12需求:统计出每个省=广告被点击次数的TOP3实现过程package com.ityouxin.sparkimport org.apac...原创 2020-01-18 13:29:32 · 308 阅读 · 0 评论 -
大数据技术之Spark Core的RDD(二)
大数据技术之Spark Core的RDD(二)一:双Value类型union(otherDattaset)案例作用:对源RDD和参数RDD求并集后返回一个新的RDD数据集需求:创建两个RDD,并求并集val rdd1 = sc.parallelize(1 to 5)val rdd2 = sc.parallelize(5 to 8)val rdd3 = rdd1.union(rdd...原创 2020-01-18 13:28:42 · 116 阅读 · 0 评论 -
大数据技术之SparkCore(一)
大数据技术之SparkCore(一)一:RDD概述RDD定义:RDD(Resilient Distributed Dataset)叫做弹性分布式数据集。是Spark中最基本的数据抽象。代码中是一个抽象类,代表一个不可变、可分区、其中的元素可并行计算的集合。RDD的属性partition:一组分区(partition),即数据集的基本组成单位。Function:每个分区的函数...原创 2020-01-16 15:45:22 · 185 阅读 · 0 评论 -
Spark基础概论
Spark基础概论Spark定义Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎Spark的内置模块SparkSQL 结构化数据查询语句SparkStreaming 实时计算框架Spark Milb 机器学习Spark GraghX 图计算Spark core spark的核心引擎Spark Core: 实现了 Spark 的基本功能,包含...原创 2020-01-16 15:44:44 · 278 阅读 · 0 评论