spark
文章平均质量分 85
浪尖聊大数据-浪尖
弓重好:浪尖聊大数据,主要分享大数据架构基础到入门的文章。
展开
-
面试必知的 Spark SQL 几种 Join 实现
Join作为SQL中一个重要语法特性,几乎所有稍微复杂一点的数据分析场景都离不开Join,如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流,...转载 2021-03-03 17:48:00 · 411 阅读 · 1 评论 -
Spark 在金融领域的应用之日内走势预测
1. 同花顺收费版之走势预测2014年后半年开始,国内 A 股市场可谓是热火朝天啊,路上的人谈的都是股票。小弟虽然就职金融互联网公司,但之前从来没有买过股票,但每天听着别人又赚了几套房几辆...转载 2021-02-23 17:58:29 · 494 阅读 · 0 评论 -
面试|spark刷爆磁盘与java弱引用的关系
一 引用基本概念如下面,定义两个变量num,str,存储模型大致如下图:int num = 6;String str = “浪尖聊大数据”;变量num值直接从6修改为了8;变量str...原创 2020-11-11 08:35:34 · 339 阅读 · 0 评论 -
以上帝视角看看Spark Streaming实现
开始之前,先投票,明天大A如何:要说流式微批处理类似Spark Streaming,就不得不说一下TCP流。典型的tcp IO流模型有,bio,伪异步IO,NIO,AIO,Rector模...原创 2020-05-21 00:06:31 · 273 阅读 · 0 评论 -
spark jobserver源码导读
最近有人问浪尖,想读一个比较大的spark项目源码,问浪尖要,浪尖只能告诉你业务相关的是基本上不会有人开源,平台相关的源码就比较多了,浪尖比较推荐的是Spark JobS...转载 2019-06-25 20:36:07 · 503 阅读 · 0 评论 -
为啥spark 的broadcast要用单例模式
很多用Spark Streaming 的朋友应该使用过broadcast,大多数情况下广播变量都是以单例模式声明的有没有粉丝想过为什么?浪尖在这里帮大家分析一下,有以下几...原创 2019-06-10 20:04:58 · 1201 阅读 · 0 评论 -
不可不知的spark shuffle
shuffle概览一个spark的RDD有一组固定的分区组成,每个分区有一系列的记录组成。对于由窄依赖变换(例如map和filter)返回的RDD,会延续父RDD的分区信...原创 2019-03-20 21:58:33 · 295 阅读 · 0 评论 -
spark streaming性能分析经验
晚上健身回来,在和一个同学讨论高中和初中的数学题,结果一个都没做出来,很残酷。结果文章晚了会儿。最近裁员闹的人心惶惶,听说有朋友整个部门被干掉,这种就跟自己关系不是太...原创 2018-12-08 00:29:12 · 657 阅读 · 0 评论 -
源码:Spark SQL 分区特性第一弹
头条号上说过近期分享Spark SQL系列文章,前面在头条号上分享了Dataset API的基本操作和复杂操作,不知道下面大家有没有自己测试一下。今天主要是分享Spark...原创 2018-12-09 00:00:00 · 9165 阅读 · 13 评论 -
结合Spark讲一下Flink的runtime
Flink运行时主要角色有两个:JobManager和TaskManager,无论是standalone集群,on yarn都是要启动这两个角色。有点类似于MRv1的架构...原创 2018-11-20 00:00:00 · 759 阅读 · 0 评论 -
Spark2.4.0发布了!
Spark2.4.0 今天官网发布,这是一个大好消息。Spark 2.4.0是2.x的第五个发型版本。官方发布消息链接如下:http://spark.apache.org...转载 2018-11-10 00:00:00 · 2002 阅读 · 0 评论 -
百度面试题:Spark 实现PageRank
PageRank算法简介PageRank是执行多次连接的一个迭代算法,因此它是RDD分区操作的一个很好的用例。算法会维护两个数据集:一个由(pageID,linkList...转载 2018-09-04 00:00:00 · 989 阅读 · 0 评论 -
Apache Spark:来自Facebook的60 TB +生产用例
本文主要讲Facebook扩展spark替换hive的过程中积累的经验和教训。浪尖整理翻译https://databricks.com/blog/2016/08/31/a...原创 2018-08-26 11:39:42 · 584 阅读 · 0 评论 -
spark源码系列之累加器实现机制及自定义累加器
一,基本概念累加器是Spark的一种变量,顾名思义该变量只能增加。有以下特点:1,累加器只能在Driver端构建及并只能是Driver读取结果,Task只能累加。2,累加...转载 2018-06-04 08:34:41 · 1733 阅读 · 1 评论 -
请别再问我Spark的MLlib和ML库的区别
机器学习库(MLlib)指南MLlib是Spark的机器学习(ML)库。其目标是使实际的机器学习可扩展和容易。在高层次上,它提供了如下工具:ML算法:通用学习算法,如分类,回归,聚类和协同过滤特征提取,特征提取,转换,降维和选择管道:用于构建,评估和调整ML管道的工具持久性:保存和加载算法,模型和管道实用程序:线性代数,统计,数据处理等公告:原创 2017-12-01 00:00:00 · 23491 阅读 · 1 评论 -
SQL on Hadoop性能对比-Hive、Spark SQL、Impala
1三种语言、三套工具、三个架构 不了解SQL on Hadoop三驾马车-Hive、Spark SQL、Impala吗?听小...转载 2021-02-13 08:19:07 · 1209 阅读 · 0 评论 -
协同过滤推荐算法在MapReduce与Spark上实现对比
MapReduce为大数据挖掘提供了有力的支持,但是复杂的挖掘算法往往需要多个MapReduce作业才能完成,多个作业之间存在着冗余的磁盘读写开销和多次资源申请过程,使得基于MapRedu...转载 2021-02-05 17:40:00 · 638 阅读 · 0 评论 -
fs.defaultFS 变更,使spark-sql 查询hive失败原因分析
这个是粉丝投稿,很有价值,浪尖在这里给大家分享一下,也使得后面有粉丝遇到相同的问题,可以快速的解决,节省时间。我们在将hdfs换成⾼可⽤后,我们的namede地址发⽣变更,也就是我们的f...原创 2020-05-01 00:03:47 · 922 阅读 · 0 评论 -
如何Spark的shuffle移植到自己业务
1.ExternalSorter简介ExternalSorter是用来排序及聚合key-value类型的数据。首先使用分区器将数据按照key进行分区,然后使用自定义的排序器在一个分区内对...原创 2020-04-30 00:04:43 · 244 阅读 · 0 评论 -
从 PageRank Example 谈 Spark 应用程序调优
转自:https://cloud.tencent.com/developer/article/1005499最近做了关于Spark Cache性能测试,开始是拿BigDa...转载 2019-09-29 23:18:12 · 256 阅读 · 0 评论 -
说几个flink好做spark却不好做的场景
经常有粉丝问我该选flink和spark streaming?业务选型对新手来说是件非常困难的事情,对于经验丰富又经常思考的人来说就很简单。选型的时候个人准备知识...原创 2019-08-26 22:57:25 · 861 阅读 · 0 评论 -
spark sql 非业务调优
1,jvm调优这个是扯不断,理还乱。建议能加内存就加内存,没事调啥JVM,你都不了解JVM和你的任务数据。默认的参数已经很好了,对于GC算法,spark sql可以尝试一...原创 2019-07-22 21:03:14 · 273 阅读 · 0 评论 -
必背|spark 内存,GC及数据结构调优
本文主要译自spark官网。重复发的原因是修改了上次翻译的不妥之处。留意字体颜色深的部分。一,基本概述调优内存的使用主要有三个方面的考虑:对象的内存占用量(你可能希望整个...原创 2019-07-21 23:10:40 · 341 阅读 · 0 评论 -
Spark Core读取ES的分区问题分析
ES也是比较火热,在日志数据分析,规则分析等确实很方便,说实话用es stack 浪尖觉得可以解决很多公司的数据分析需求。极客时间下周一要上线新的ES课程,有需要的暂时别...原创 2019-06-19 22:55:46 · 1592 阅读 · 1 评论 -
单表千亿电信大数据场景,使用Spark+CarbonData替换Impala案例
国内某移动局点使用Impala组件处理电信业务详单,每天处理约100TB左右详单,详单表记录每天大于百亿级别,在使用impala过程中存在以下问题:详单采用Parquet...转载 2019-01-12 22:42:22 · 655 阅读 · 0 评论 -
Spark SQL如何实现mysql的union操作
简介今天聊了聊一个小小的基础题,union和union all的区别:union all是直接连接,取到得是所有值,记录可能有重复 union 是取唯一值,记录没有重复...原创 2018-12-05 00:18:34 · 5825 阅读 · 0 评论 -
解惑:这个SPARK任务是数据倾斜了吗?
健身前后对比健身回来的路上,看到微信群里聊技术,一群有问了一个神奇的问题,具体可以看如下截图:哥们给出的结论是repartition导致的数据倾斜,我给他详细的回复了说明...原创 2018-11-08 05:49:27 · 508 阅读 · 0 评论 -
spark源码导读一
经常有球友问,我分享了源码视频,那么该如何下手?实际上,正常情况下,单纯爱好去看源码的情况不多,阅读源码无非就一下几种情况:1,业务需求,现有框架满足不了项目需要,...原创 2018-11-05 00:03:14 · 540 阅读 · 0 评论 -
Spark SQL从入门到精通
本文主要是帮助大家从入门到精通掌握spark sql。篇幅较长,内容较丰富建议大家收藏,仔细阅读。更多大数据,spark教程,请点击 阅读原文 加入浪尖知识星球获取。微信...原创 2018-09-26 00:00:00 · 6594 阅读 · 0 评论 -
关于Spark Streaming感知kafka动态分区的问题
本文主要是讲解Spark Streaming与kafka结合的新增分区检测的问题。读本文前关于kafka与Spark Streaming结合问题请参考下面两篇文章:1,必...原创 2018-07-19 00:19:02 · 3955 阅读 · 2 评论 -
记一次使用Spark算子之用top()求Top N遇到的问题!
需求:使用spark统计词频,并求出现次数最多的10个词以及出现次数 问题:用Spark算子top(),求top N的时候结果不准确我们用一首被初中生唱收费的《Th...原创 2018-07-07 20:59:03 · 2758 阅读 · 0 评论 -
Spark学习入门(让人看了想吐的话题)
这是个老生常谈的话题,大家是不是看到这个文章标题就快吐了,本来想着手写一些有技术深度的东西,但是看到太多童鞋卡在入门的门槛上,所以还是打算总结一下入门经验。这种标题真的真...转载 2018-06-10 00:00:00 · 11766 阅读 · 6 评论 -
用java提交一个Spark应用程序
第一种方式经常有人在公众号留言或者在群里问浪尖,如何使用java代码提交一个Spark应用程序。在这里浪尖介绍一种简单的方法来实现这个功能。首先用vim打开一个文件,MyLauncher.java编写代码如下:import org.apache.spark.launcher.SparkAppHandle;import org.apache.spark.launcher.SparkLauncher;转载 2017-12-09 00:00:00 · 4767 阅读 · 0 评论 -
SparkMLLib中基于DataFrame的TF-IDF
一 简介假如给你一篇文章,让你找出其关键词,那么估计大部分人想到的都是统计这个文章中单词出现的频率,频率最高的那个往往就是该文档的关键词。实际上就是进行了词频统计TF(Term Frequency,缩写为TF)。但是,很容易想到的一个问题是:“的”“是”这类词的频率往往是最高的对吧?但是这些词明显不能当做文档的关键词,这些词有个专业词叫做停用词(stop words),我们往往要过滤掉转载 2017-12-06 00:00:00 · 1441 阅读 · 0 评论 -
论Spark Streaming的数据可靠性和一致性
摘要:Spark Streaming自发布起就得到了广泛的关注,然而作为一个年轻的项目,需要提升的地方同样很多,比如1.2之前版本driver挂掉可能会丢失数据。这里将分析它的可靠性机制。眼下大数据领域最热门的词汇之一便是流计算了,其中最耀眼的项目无疑是来自Spark社区的Spark Streaming项目,其从一诞生就受到广泛关注并迅速发展,目前已有追赶并超越Storm的架势。对原创 2017-11-24 00:00:00 · 1141 阅读 · 0 评论 -
浪尖以案例聊聊spark 3.0 sql的动态分区裁剪
麻烦大家给浪尖投个票,主要是目前公共号名称太单一了,以后的分享的知识会扩充到数据智能,用户画像等领域。本文主要讲讲,spark 3.0之后引入的动态分区裁剪机制,这个会大大提升应用的性能...原创 2020-05-19 00:08:44 · 560 阅读 · 0 评论 -
spark过节监控告警系统实现
首先要祝大家2020年快乐!马上要过年了,大部分公司这个时候都不会再去谋求开新业务,而大数据工匠们,想要过好年,就要保证过年期间自己对自己的应用了如执掌。一般公司都会有轮值人员,至少要有...原创 2020-01-03 00:15:00 · 561 阅读 · 0 评论 -
spark streaming offset的管理那些事儿
彻底讲解了spark streaming与kafka整合offset的管理的注意事项。初级的工程师可以详细看看。 ...转载 2019-12-04 22:48:10 · 300 阅读 · 0 评论 -
spark比flink好用的点
也还是继续昨天的话题说吧。纯手机手打,感觉有用麻烦点个赞。开头还是那句话,spark是以批处理起家,发展流处理,所以微批处理吞吐优先,可以选用。flink以实...原创 2019-08-27 23:47:01 · 503 阅读 · 0 评论 -
spark streaming窗口聚合操作后如何管理offset
很多知识星球球友问过浪尖一个问题: 就是spark streaming经过窗口的聚合操作之后,再去管理offset呢?对于spark streaming来说窗口操作...原创 2019-07-20 21:01:48 · 1234 阅读 · 3 评论