Spark
Spark
刘二郎
很懒
展开
-
Spark(六-2)交互式数据分析怎么对外提供数据分析服务?
六-1中我们分析了我们实际场景中的一个需求,但是如果要完全支持需求的话我们得考虑一下整个系统怎么跑起来了?我们自己测试的时候都是单机跑,难不成线上我们也这么做?显然不可能。 我的交互式的理解:选择一个条件 --> 跑该条件的spark 作业 -->生成结果 -->反馈结果(达到交互式的效果) 因此基于此,有如果的架构图: Spark1作业 ,Spark2作业, Spark3作业针对的是用户选择的不同的条件 ...原创 2020-07-11 16:07:43 · 421 阅读 · 0 评论 -
Spark(六-1)交互式用户行为数据实时分析(top10商品)
经过前期的了解和项目搭建,相信大家最关心的是能不能跑个demo出来,基于一些常见的需求场景,来跑一波数据分析,这样学习才能有继续的动力。因此后续也不会有先去看它的代码实现原理啥的,还是那句话,现在这个阶段如果一头扎进去,出不来的。 数据准备: 网站埋点数据。 需求:后台运营想知道我们当前哪些的访问量是最高的,基于火爆商品的访问做一些运营活动。 需求分析:我们要基于埋点数据找到包含商品访问的记录,解析数据成<K,V> K为商品Id,V为次数。然后排序取Top10或者Top20等等 数据存储: 当前原创 2020-07-11 15:23:27 · 411 阅读 · 0 评论 -
Spark(五)Standalone模式架构图和运行流程图
本地测试的部署方式就是Standalone模式,因此会着重先分析一波它的架构图和运行流程。Yarn的模式本质上一样。只不过是概念做了替换。术语基于第四篇的总结。 Standalone模式架构图 Standalone模式运行流程图 ...原创 2020-07-05 19:21:37 · 938 阅读 · 0 评论 -
Spark(四)专业术语
经过完成我们的第一个程序之后,我们大概知道了Spark是怎么样的一个简单开发过程。我们要写main方法,写完我们要提交,提交完之后Spark去执行。那么趁热打铁,我们去了解一下有关Spark的专业术语吧 Application Spark应用程序,其实就是指上一篇我们编写的代码,包含了Driver代码和分布式集群中多个节点的Executor代码。 Driver 可以理解为main()函数。 创建SparkContext【准备Spark应用程序的运行环境】 和ClusterManager通信,进行资源的申请原创 2020-07-05 19:17:56 · 194 阅读 · 0 评论 -
Spark(三)第一个Spark程序
学习过程我们先不去关注Spark的运行环境和部署方式,只要起来了能用,咱就开始先用着,如果一开始就深入研究里面的运行原理,会发现根本出不来了,所以我们先动手实现程序,在过程中慢慢去理解里面的执行原理。 首先我们先去百度看下,要怎么写自己的第一个程序呢?我们可以选择Python,Java,Scala。不过多数推荐Scala,Java现在也能写,但是我稍微去查了些资料,看见Java编写的技术文档不多,很多都是Scala的技术文档和问题解决。所以需要准备下面的东西: 开发环境:IDEA。 Spark版本:spar原创 2020-07-05 18:33:58 · 845 阅读 · 0 评论 -
Spark(二)部署方式
第一篇中,我们启动了Spark,有没有发现我们启动了三个节点,一个是Spark master节点,另外两个是slaves节点。这其实就是用的Spark自带的standalone模式启动的。 我们来总结下,有几种方式啊。 local模式:local模式就是本地模式,这种模式多用于开发和测试,和有没有Spark环境没多大关系,你可以在本地项目里写一段Spark程序,以这种模式启动,都无需连接到Spark环境内。 standalone(集群模式)。这就是第一篇里说的,master/salves模式。但是这种模式原创 2020-07-05 16:41:24 · 245 阅读 · 0 评论 -
Spark系列文章专栏
由于之前一直从事互联网的Java开发工作。技术有了一定积累并且自己的知识图谱有关互联网的部分积累比较多了。但是一直就是大数据部分没有机会接触到。刚好最近公司有大数据方向的机会,因此借此机会,积累一些大数据部分的图谱。下面就是系列文章: Spark(一)安装 ...原创 2020-07-05 16:14:25 · 245 阅读 · 0 评论 -
Spark(一)安装
安装过程不复杂,主要是由于没有接触过Hadoop,一下子进入Spark,有点不知所措,所以建议如果没有Hadoop经验,又想先搞Spark的同学,可以找一些视频入入门,先从一个总体的流程感知下Spark。 官网下载地址: http://spark.apache.org/downloads.html 简单介绍一下: ...原创 2020-07-05 16:07:59 · 235 阅读 · 0 评论