Spark
文章平均质量分 72
笑看风云路
曾转战过大唐电信,京东等一线互联网企业,目前在一家互联网金融公司,从事开发工作。专注于分享大数据相关技术,包括Hadoop、Spark、Flink、Kafka、Hive、 HBase等,让我们在大数据技术的道路上一起努力前行,遇见更好的自己!
展开
-
Oracle 迁移 Hive 过程中遇到的问题总结
最近一个小伙伴在做从Oracle到Hive的业务迁移工作,在迁移过程中属实遇到了一些坑,今天就来汇总一下这些坑,避免以后大家其他业务迁移的时候再出现类似的问题,即使出现了也可以拿过来进行对照解决。在迁移业务的过程中,要了解不同系统中函数的用法,希望我遇到的坑,给大家带来一点借鉴意义!原创 2023-07-26 18:05:16 · 1578 阅读 · 31 评论 -
Spark——成功解决java.util.concurrent.TimeoutException: Futures timed out after [600 seconds]
最近真是和Spark任务杠上了,业务团队说是线上有个Spark调度任务出现了广播超时问题,根据经验来看应该比较好解决。在进行Spark 任务开发中需要合理配置和参数,并配合,使作业能够顺利执行。原创 2023-06-06 18:17:28 · 2121 阅读 · 10 评论 -
java.lang.StringIndexOutOfBoundsException: String index out of range: -2147483648 成功解决
最近一个小伙伴出现一个从未见过的一个异常,不知道如何解决,于是找我帮忙,看到问题我也是有点懵,怎么会出现这个问题呢,于是找他要了sql脚本,开始找问题的原因。。。原创 2023-05-10 15:32:31 · 1488 阅读 · 3 评论 -
pyspark编程实践
参考链接2020 年 11月 随笔档案 - seekerJunYu - 博客园pyspark编程实践(过滤、行运算、字符串操作、缺失处理) - seekerJunYu - 博客园pyspark编程实践(replace&fill&otherwise&pivot&window) - seekerJunYu - 博客园...原创 2021-11-11 13:55:00 · 428 阅读 · 0 评论 -
聊一聊Spark序列化是干什么的?
大家好,我是风云,欢迎大家关注我的个人原创公众号【笑看风云路】获取更多大数据技术干货,在未来的日子里我们一起来学习大数据相关的技术,一起努力奋斗,遇见更好的自己!原创 2022-07-18 11:22:56 · 620 阅读 · 0 评论 -
聊一聊Spark实现TopN的几种方式
大家好,我是风云,欢迎大家关注我的个人原创公众号【笑看风云路】获取更多大数据技术干货,在未来的日子里我们一起来学习大数据相关的技术,一起努力奋斗,遇见更好的自己!原创 2022-07-15 11:23:53 · 2209 阅读 · 0 评论 -
Spark RDD持久化的三种方式
大家好,我是风云,欢迎大家关注我的个人原创公众号【笑看风云路】获取更多大数据技术干货,在未来的日子里我们一起来学习大数据相关的技术,一起努力奋斗,遇见更好的自己!扫码进,更快捷:在RDD中是不存储数据的,如果一个RDD需要重复使用,只是这个RDD对象是可以重用的,但是数据无法重用,那么需要从头再次执行来获取数据进行计算。Spark为了避免这种重复计算的情况,实现了RDD持久化功能。在Spark中,RDD的持久化算子有三个:cache、persist和checkpoint。缓存:如何缓存:语法:rdd.c原创 2022-07-14 10:19:03 · 1033 阅读 · 0 评论 -
Spark文件的读取和保存
在Spark中,提供了多种文件格式的读取和保存的API。数据的读取和保存可以从两个维度来区分文件格式和文件系统。文件格式分类text文件、Object文件和sequence文件。文件系统分类本地文件系统、HDFS等。解释object文件即对象文件,是将对象序列化后保存的文件,采用Java序列化机制。由于经过了序列化,故在读取数据的时候,需要指定对象类型。sequence文件是Hadoop用来存储二进制形式的K-V键值对而设计的一种平面文件(FlatFile)。httpshttps。......原创 2022-07-13 09:36:43 · 1228 阅读 · 0 评论 -
Spark创建RDD的几种方式
大家好,我是风云,欢迎大家关注我的个人原创公众号【笑看风云路】获取更多大数据技术干货,在未来的日子里我们一起来学习大数据相关的技术,一起努力奋斗,遇见更好的自己!扫码进,更快捷:在Spark中创建RDD的方式主要分为2种:1.读取内存数据创建RDD2.读取文件创建RDD读取内存数据创建RDD,Spark主要提供了两个方法:parallelize和makeRDD。使用makeRDD创建RDD的时候还可以指定分区数量。2、读取文件创建RDD读取文件创建RDD,Spark提供了textFile和whole原创 2022-07-12 10:18:17 · 2552 阅读 · 0 评论 -
掌握Scala基础知识,让你在Spark的学习道路上更近一步!
scala为啥如此重要呢?1、因为Spark是用scala开发的现在Spark是大数据领域的杀手级应用框架,大小企业中都会在搭建的大数据平台上,大量使用Spark来处理和分析数据,而要想学好Spark,Scala基础知识是必须要掌握的。2、功能强大且简练,适合大数据处理Scala将面向对象与函数式编程相结合,语法简洁而富有表达力,并且提供了强大的功能,非常适合用来处理各种数据。3、能够较好地融合大数据生态圈Scala是基于JVM的语言,可以与java进行无缝混编,而大数据生态组件大多都是java开发的,因此原创 2022-07-10 09:38:44 · 461 阅读 · 0 评论 -
一文学完Spark常用算子(Spark算子大全)
Spark RDD的算子分为转换算子(Transformation)和行动算子(Action)。转换算子分为:Value类型、双Value类型和K-V类型。将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换...............原创 2022-07-08 11:31:03 · 8627 阅读 · 1 评论 -
Spark实现WordCount的11种方式,你知道的有哪些?
学习任何一门语言,都是从helloword开始,对于大数据框架来说,则是从wordcount开始,Spark也不例外,作为一门大数据处理框架,在系统的学习spark之后,wordcount可以有11种方式实现,你知道的有哪些呢?还等啥,不知道的来了解一下吧!...............原创 2022-07-07 11:39:33 · 1659 阅读 · 0 评论 -
小白带你重游Spark生态圈!
肝了整整一天,终于把Spark的理论精髓给高度总结出来了,亲绘思维导图!让你对Spark生态圈有一个整体的概览!废话不多说,这就开始上图了… 好了,本篇主要为大家带来的就是博主为大家贡献的五张Spark的思维导图.........原创 2022-07-02 23:18:48 · 400 阅读 · 1 评论 -
手把手教学hive on spark,还不会的小伙伴快上车了
更换Hive执行的引擎,提升执行速度!打开hive on spark 配置的正确姿势从这里开始!原创 2022-05-20 13:18:32 · 1007 阅读 · 3 评论 -
Spark集群搭建超详细教程
前言在上一篇文章《Hadoop集群搭建配置教程》中详细介绍了Hadoop集群搭建的全部过程,今天为大家带来分布式计算引擎Spark集群搭建,还是使用三个虚拟机节点上进行安装部署,围绕Standalone模式和Yarn模式的这两种部署模式进行展开。集群搭建具体步骤注意:以下步骤均在hadoop1节点上进行操作,特殊说明除外!Standalone模式1、下载spark-3.0.0的jar包下载地址:https://archive.apache.org/dist/spark/spark-3.0.原创 2022-05-19 09:32:09 · 14972 阅读 · 4 评论