Spark
文章平均质量分 93
大数据老哥
这个作者很懒,什么都没留下…
展开
-
史上最全Spark高级RDD函数操作
前言 本篇文章主要介绍高级RDD操作,重点介绍键值RDD,这是操作数据的一种强大的抽象形式。我们还涉及一些更高级的主题,如自定义分区,这是你可能最想要使用RDD的原因。使用自定义分区函数,你可以精确控制数据在集群上的分布,并相应的操作单个分区。创建数据集 val myCollection = "WeChat official account big data brother" .split("原创 2021-03-18 23:32:28 · 2223 阅读 · 19 评论 -
Spark调优秘诀
前言 每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。1.诊断内存的消耗在Spark应用程序中,内存都消耗在哪了?1.每个Java对象都有一个包含该对象元数据的对象头,其大小是16个Byte。由于在写代码时候,可能会出现这种情况:对象头比对象本身占有的字节数更多,比如对象只有一个转载 2021-03-02 21:26:36 · 1443 阅读 · 0 评论 -
2020年最新Spark企业级面试题【下】
前言 上篇文章给大家分享了前10个spark的企业面试题2020年最新Spark企业级面试题【上】,今天后续来了,来分享剩下的那个几个面试题。也祝大家找到自己喜欢的工作,一起加油,编写不易 请给老哥一个一键三连吧。一、手写Spark-WordCount在这里就有好多小伙吧说了,手写wordCount不简单吗?一点逻辑都没有,虽然你在idea中写的非常熟练,但是真到了面试的时候就有好多小伙伴写不出来了,往往越原创 2020-12-13 19:44:39 · 3934 阅读 · 1 评论 -
2020年最新Spark企业级面试题【上】
前言 现在距离2021年还有不到一个月的时间了,是不是有的小伙明年不知该怎么复习spark,以及不知道该备战企业中会问到那些问题。好今天他来了总结了20个企业中经常被问到的面题以及会附带一些笔试题哦,编写不易建议收藏。一、 Spark 有几种部署方式?spark 中的部署模式分为三种 Standalone, Apache Mesos, Hadoop YARN,那他们分别有啥作用那?Standalon原创 2020-12-12 20:19:28 · 4089 阅读 · 27 评论 -
SparkSQL介绍并实现开窗函数
1.开窗函数聚合函数和开窗函数聚合函数是将多行变成一行开窗函数是将一行变成多行开窗函数分类聚合开窗函数 : 聚合函数over 这里的选择可以是partition by 子句,但不可以是order by子句排序开窗函数 : 排序函数over 这里的选项可以是order by 子句,可以是 over(partition by 子句 order by 子句), 但不可以是 parti...原创 2020-04-12 13:21:16 · 9861 阅读 · 10 评论 -
SparkSQL 自定义函数UDF与UDAF
自定义函数分类UDF 输入一行,输出一行UDAF 输入多行,输出一行UDTF 输入一样,输出多行UDF//导包import org.apache.spark.sql.SparkSession//编写代码// 1.实例SparkSession val spark = SparkSession.builder().master("local[*]").appName("udf"...原创 2020-04-12 13:19:05 · 9509 阅读 · 10 评论 -
SparkSQL实现wordCount与资源转换
Spark SQL完成WrodCount//导包import org.apache.spark.sql.SparkSession//编写代码//1.定义SparkSession val spark = SparkSession.builder().master("local[*]").appName("wordCount").getOrCreate()//2.根据SparkSes...原创 2020-04-12 13:16:49 · 9665 阅读 · 30 评论 -
SparkSQL使用IDEA快速入门DataFrame与DataSet
1.使用IDEA开发Spark SQL1.1创建DataFrame/DataSet1、指定列名添加Schema2、通过StrucType指定Schema3、编写样例类,利用反射机制推断Schema1.1.1指定列名添加Schema//导包import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSession/...原创 2020-04-12 13:12:53 · 10013 阅读 · 29 评论 -
SparkSQL查询风格SQL与DSL介绍及使用
1.两种查询风格1.1 准备工作// 1.读取文件 并将文件按照空格切分var lineRDD=sc.textFile("file:///opt/person.txt").map(_.split(" "))// 2.定义class单例对象用来保存数据case class Person(id:Int,name:String,age:Int)// 3.将数据转化为Person类型RDD...原创 2020-04-12 13:09:53 · 10390 阅读 · 11 评论 -
SparkSQL快速入门DataFrame与DataSet
2.1 DataFrame2.1.1读取txt文件并输出1.在本地创建一个文件,有id、name、age三列,用空格分隔,然后上传到hdfs上vim /opt/person.txt1 zhangsan 202 lisi 293 wangwu 254 zhaoliu 305 tianqi 356 kobe 40//Spark session available as 'spa...原创 2020-04-12 13:07:30 · 9559 阅读 · 29 评论 -
SparkSQL介绍及快速入门
1.什么是SparkSQL?用于处理构造化数据的spark模块可以通过DataFrame和DataSet处理数据2.SparpSQL特点易整合 可以使用java、scala、python、R 等语言的API操作统一数据访问 连接到任何数据源的方式相同兼容hive 标准的数据连接 (JDBC/ODBC)SQL优缺点优点:表达非常清晰,难度低,易学习缺点: 负责的业务需要复杂的...原创 2020-04-12 13:04:57 · 9725 阅读 · 30 评论 -
Spark向Hbase读写操作
初始化操作create 'student', 'message'向Hbase写入数据import java.util.UUIDimport org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.client.Putimport org.apache.hadoop.hbase.io.Imm...原创 2020-04-07 21:22:39 · 9743 阅读 · 27 评论 -
Spark向Mysql读写数据
初始操作1.创建数据库 bigdata04072.创建表CREATE TABLE `user` ( `id` int(11) NOT NULL AUTO_INCREMENT, `username` varchar(32) NOT NULL COMMENT '用户名称', `birthday` date DEFAULT NULL COMMENT '生日', `sex` ...原创 2020-04-07 21:16:36 · 10389 阅读 · 30 评论 -
Spark快速入门API① Transformation转换算子
Spark支持两种RDD操作:transformation和action。transformation操作会针对已有的RDD创建一个新的RDD;而action则主要是对RDD进行最后的操作,比如遍历、reduce、保存到文件等,并可以返回结果给Driver程序。Transformation API 的快速入门//1.需求使用map函数将 将list中的每一个元素*2 返回新的RD...原创 2020-04-05 21:40:59 · 9617 阅读 · 35 评论 -
SparkCore快速入门及介绍
什么是RDD弹性、分布式、数据集(数据存储在内存)弹性的,RDD中的数据可以保存在内存中或磁盘里面分布式存储,可以用于分布式计算集合,可以存放很多元素一个不可变,可分区,里面的元素可并行计算的集合RDD的主要属性数据集的基本组成但是一个组分片或一个分区列表,每个分片都会被一个计算任务处理,分区数量决定并发度。用户可以在创建RDD是指定RDD的分片个数,如果没有指定,那么久采用默...原创 2020-04-04 17:39:22 · 9526 阅读 · 28 评论 -
Spark环境搭建④ on yarn集群模式
前提:hadoop 安装部署好安装 on yarn上传并加压tar zxvf spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz -C ../servers/修改配置文件spark-env.shcd /export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/confvim spark-env.sh #配...原创 2020-04-04 17:03:56 · 9612 阅读 · 28 评论 -
Spark环境搭建③ standalone-HA高可用模式
原理Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。如何解决这个单点故障的问题,Spark提供了两种方案:1.基于文件系统的单点恢复(Single-Node Recovery with Local File System)--只能用于开发或测试环境。2.基于zooke...原创 2020-04-04 16:45:25 · 9586 阅读 · 28 评论 -
Spark入介绍
Spark官方介绍Spark是什么Apache Spark是用大规模数据处理的统一分析引擎Spark基于内存计算,提高在大数据环境下数据处理的实时性,同时保证了容错性和高可伸缩性,允许用户将spark部署在大容量硬件之上,形成集群。官方http://spark.apache.orghttp://spark.apachecn.orgSpark特点快: Spark...原创 2020-04-03 08:32:24 · 9427 阅读 · 0 评论 -
Spark使用idea和shell计算WordCount
1.使用shell计算WordCount 1.1启动sparkbin/spark-shell 1.2创建个文件里面放值你要计算的文件 mkdir input 1.3数据计算的命令sc.textFile("input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_...原创 2020-02-28 17:51:01 · 8459 阅读 · 0 评论