spark
longG_It
这个作者很懒,什么都没留下…
展开
-
spark体系结构以及详细安装步骤和高可用的配置
1.Spark体系分为服务端和客户端(1)服务端分为主节点和从节点 1>主节点是master,相当于Resourcemanager,职责是管理和调度资源和任务、接受客户端任务请求,部署在其他服务上(standaalong、Yarn。。。) 2>从节点是worker,任务是从节点的资源和任务管...原创 2018-09-17 21:38:27 · 267 阅读 · 0 评论 -
SparkStreaming内部结构以及经典案例与测试工具的使用--------updateSetBykey以及检查点的运用
1.SparkStreaming的内部结构,Spark Streaming将连续的数据流抽象为DStream。在内部,DStream 由一个RDD序列表示,然后将一个个RDD通过SparkEngine处理后输出。-------------------------------开发自己的实时词频统计程序----------------------**特别需要注意的一个是虚拟机的核数最小是2...原创 2018-10-08 20:22:47 · 202 阅读 · 0 评论 -
Spark经典案例(广播、自定义排序、缓冲)--------------根据需求进行日志的分析
数据的相关信息:数据地址:链接:https://pan.baidu.com/s/1kFCbYlpYW3xROAl9VvBlIg 密码:12tw ipAddress: String, // IP地址 clientId: String, // 客户端唯一标识符 ...原创 2018-09-28 15:05:43 · 218 阅读 · 0 评论 -
Spark缓冲、容错机制
一.缓冲 文件太大的时候,不会全部放到内存中,实际文件大小30M,放到内存中达到90M:因为写入的文件当中存放的是二进制,而读取到内存中以后,使用Java对象序列化方式 这种序列化会占用更大的空间,所以比实际大小要大 实际上不会将内存全部占用,要给程序运行留下足够的内存 注意: cache可以提高程序运行速度,但是如果使用一次就没必要cache,常用于反复的使用 cache既不...原创 2018-09-27 21:25:08 · 345 阅读 · 0 评论 -
Spark数据过滤、自定义分区、Shuffer调优 经典案例(详解)
案例:根据学科取得最受欢迎的老师的前两名这个是数据http://bigdata.edu360.cn/zhangsanhttp://bigdata.edu360.cn/zhangsanhttp://bigdata.edu360.cn/lisihttp://bigdata.edu360.cn/lisihttp://bigdata.edu360.cn/lisihttp://bigdata...原创 2018-09-22 17:25:13 · 589 阅读 · 0 评论 -
Spark之广播变量详解------附加案例实现
1.广播变量的意义当大数据进行业务处理的时候,所需要的数据存储在HDFS上,但是HDFS上的数据都是一块一块的,如果数据不完整的话就不能进行业务的正常处理,所以需要将数据全部集中起来,去通过广播,让所有进行处理的executors获得全部的数据。2.下面一张高清大图说明广播的过程,Driver将数据collect到一起,然后将完整的数据分发到executors上,进行相应的处理 3.广播变...原创 2018-09-27 11:22:15 · 1197 阅读 · 0 评论 -
Spark中RDD启动方式、常用算子以及源码解析RDD属性
RDD简介1.启动方式2.常用算子总结1)简单算子2)高级算子3.源码解析RDD属性原创 2018-09-25 10:38:26 · 183 阅读 · 0 评论 -
WordCount在Spark的执行原理
1.首先看一下代码。package day01import org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * 这是一个scala版本的Spark词频统计程序 * Created by zhan...原创 2018-09-23 11:31:07 · 402 阅读 · 0 评论 -
Spark递交任务原理 || 经典案例深度分析--------------词频统计(多种语言)
Spark递交任务原理类似于Yarn调度任务的过程首先得客户端提交请求 核心是SparkContext,通过SparkContext递交客户端请求(请求的源文件信息(描述数据的数据),不是具体的jar文件)服务端接收客户端请求,分配资源给Worker将任务信息和资源分配给具体的Worker这...原创 2018-09-18 14:16:25 · 730 阅读 · 0 评论 -
SparkStreaming窗口操作经典案例
1.背景描述在社交网络(微博),电子商务(京东)、搜索引擎(百度)、股票交易中人们关心的内容之一是我所关注的内容中,大家正在关注什么在实际企业中非常有价值例如:我们关注过去30分钟大家都在热搜什么?并且每5分钟更新一次。要求列出来搜索前三名的话题内容2.原理图如图所示,每当窗口滑过DStream时,落在窗口内的源RDD被组合并被执行操作以产生windowed DStream的RDD。...原创 2018-10-08 20:37:50 · 1973 阅读 · 0 评论