Spark
lyzx_in_csdn
努力只为更强大的存在
展开
-
《深入理解Spark》之SparkSql复习
XML Code 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 3...原创 2018-03-27 15:54:46 · 390 阅读 · 0 评论 -
《深入理解Spark》之RDD转换DataFrame的两种方式的比较
package com.lyzx.day19import org.apache.spark.sql.types.{StringType, StructField, StructType}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.SQLContextimport org.apa...原创 2018-01-08 17:00:23 · 573 阅读 · 0 评论 -
《深入理解Spark》之RDD和DataFrame的相互转换
package com.lyzx.day18import org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.Row;import org.apache.spark.sql.types.{StructType,StructF...原创 2018-01-07 22:44:58 · 3097 阅读 · 0 评论 -
《深入理解Spark》之广播变量与累加器
XML Code 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 3...原创 2018-01-07 22:42:50 · 219 阅读 · 0 评论 -
《深入理解Spark》之算子详解2
XML Code 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 3...原创 2018-01-07 22:41:39 · 230 阅读 · 0 评论 -
《深入理解Spark》之 reduceByKey
XML Code 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 3...原创 2018-01-04 15:34:16 · 1797 阅读 · 0 评论 -
《深入理解Spark》之join和数据倾斜问题
package com.lyzx.day34import org.apache.spark._class T2 { /** * join方法深入理解 * join类似于sql中的inner join会把键完全匹配的项列以(key,(v1,v2))的形式列出来 * leftOuterJoin 类似于SQL中的left outer join 把左表的全部列出来,右...原创 2018-02-04 22:13:17 · 1200 阅读 · 0 评论 -
《深入理解Spark》之并行度和参数(spark.default.parallelism)之间的关系
package com.lyzx.day35import org.apache.spark.{SparkConf, SparkContext}class T1 { def f1(sc:SparkContext): Unit ={ val rdd = sc.parallelize(1 to 100,10) println("[原始RDD] rdd.partitions...原创 2018-02-06 09:21:44 · 7622 阅读 · 1 评论 -
《深入理解Spark》之aggregate和aggregateByKey
package com.lyzx.day35import org.apache.spark.{SparkConf, SparkContext}class T2 { def f1(): Unit ={ val data = List(2,5,8,1,2,6,9,4,3,5) val res = data.par.aggregate((0,0))( ...原创 2018-02-06 09:23:18 · 357 阅读 · 0 评论 -
《深入理解Spark》之cogroup、cartesian 、intersection 、sortBy
package com.lyzx.day36import org.apache.spark.storage.StorageLevelimport org.apache.spark.{SparkConf, SparkContext}class T1 { /** * join vs cogroup * join是做类似于SQL的inner join 匹配到的按照排列组合...原创 2018-02-06 15:31:06 · 330 阅读 · 0 评论 -
《深入理解Spark》之spark初体验-wordCount
XML Code 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 3...原创 2017-12-15 14:21:10 · 189 阅读 · 0 评论 -
《深入理解Spark》之spark特点
1、A list of partition(具体的概念:某个节点上连续的数据)partition的列表一个RDD是由多个partition组成的这些partition可以在多台服务器上2、A function for computing each split一般来说一个partition对应一个split每个函数可以被应用到split3、A list of dependence on...原创 2017-12-16 19:31:37 · 373 阅读 · 0 评论 -
《深入理解Spark》之FlatMap和Glom和randomSplit
XML Code 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 3...原创 2017-12-20 22:55:46 · 502 阅读 · 0 评论 -
《深入理解Spark》之map_mapPartitions_mapPartitionsWithIndex
XML Code 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 3...原创 2017-12-20 23:47:16 · 679 阅读 · 0 评论 -
《深入理解Spark》Spark运行流程
原创 2018-01-15 09:29:55 · 325 阅读 · 0 评论 -
《深入理解Spark》Spark自定义分区器
package com.lyzx.reviewDay27import org.apache.spark.{Partitioner, SparkConf, SparkContext}class T1 { /** * Spark自定义分区器 * @param sc */ def f1(sc:SparkContext):Unit ={ val rdd =...原创 2018-01-15 14:46:19 · 981 阅读 · 0 评论 -
《深入理解Spark》之SparkStreaming的一个入门例子程序
package com.lyzx.day31import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{SparkConf}class T1 { /** * 关于SparkStreaming的一个demo * @param ssc */ de...原创 2018-01-23 16:48:15 · 737 阅读 · 0 评论 -
《深入理解Spark》之SparkStreaming并行接收流数据
package com.lyzx.day31import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{SparkConf}class T1 { /** * 关于SparkStreaming的一个demo * @param ssc */ de...原创 2018-01-24 12:55:32 · 614 阅读 · 0 评论 -
《深入理解Spark》之算子详解
XML Code 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 3...原创 2018-01-07 22:40:28 · 332 阅读 · 0 评论 -
《深入理解Spark》之Spark-Stream概述1(官方文档翻译版)
最近在学英语,学以致用,就尝试着看Spark的官方文档,并试着翻译了部分,由于水平有限如果有所疏漏的地方欢迎指正 * Spark Stream Overview* Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput,* fault-tolerant s...原创 2018-01-10 13:21:59 · 548 阅读 · 0 评论 -
《深入理解Spark》之通过sample算子找出导致数据倾斜的key
最近在整理原来学过的内容,看到sample算子就写一篇在实际开发中sample算子的具体应用sample(withReplacement : scala.Boolean, fraction : scala.Double,seed scala.Long)sample算子时用来抽样用的,其有3个参数withReplacement:表示抽出样本后是否在放回去,true表示会放回去,这也就意味...原创 2018-04-15 14:05:08 · 2249 阅读 · 2 评论 -
《深入理解Spark》之Spark常用算子详解(java版+spark1.6.1)
最近公司要用Java开发Spark项目,以前用的是Scala语言,今天就把Spark常用的算子使用java语言实现了一遍XML Code 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 ...原创 2018-04-05 20:03:59 · 1187 阅读 · 0 评论 -
《深入理解Spark》之Spark集群环境搭建
spark环境搭建3台服务区分别是master 192.168.29.160slave1 192.168.29.161slave2 192.168.29.162slave3 192.168.29.163一般在有hadoop的节点上放一个spark1、上传jar包并解压 tar -zxvf xxx.jar2、配置 standalone 集群模式2.1、拷贝conf文件夹下的...原创 2018-02-08 10:01:35 · 367 阅读 · 0 评论 -
《深入理解Spark》之通过自定义分区器解决数据倾斜问题
package com.lyzx.day37import org.apache.spark.{Partitioner, SparkConf, SparkContext}class D1 { //partitionBy和自定义分区器解决数据倾斜的问题 def f1(sc:SparkContext): Unit ={ val r1 = sc.parallelize(1 ...原创 2018-02-07 13:14:44 · 389 阅读 · 0 评论 -
《深入理解Spark》之通过java调用shell启动spark
背景:今天公司对于spark做了一个管理平台能实现一站式管理,即远程启动,远程关闭,并监控运行时的数据状态,而且监控平台和spark集群并不在同一个集群上,在同一个局域网内(机器之间做好了免密登录)当然java调用shell脚本并不是本文的重点,推荐使用下面的方式 public static void test3(){ //1.sh是要执行要脚本文件,A指的是参数,...原创 2018-05-25 09:35:11 · 3142 阅读 · 0 评论 -
《深入理解Spark》之Spark与Kafka整合原理
spark和kafka整合有2中方式1、receiver顾名思义:就是有一个线程负责获取数据,这个线程叫receiver线程解释:1、Spark集群中的某个executor中有一个receiver线程,这个线程负责从kafka中获取数据 注意:这里的获取数据并不是从kafka中拉(pull) 而是接收数据,具体原理是该receiver线程发送请求到kafka,这个请求包含对...原创 2018-06-07 00:51:11 · 4092 阅读 · 1 评论 -
《深入理解Spark》之 结构化流(spark streaming+spark SQL 处理结构化数据)的一个demo
最近在做关于spark Streaming + spark sql 结合处理结构化的数据的业务,下面是一个小栗子,有需要的拿走!package com.unistack.tamboo.compute.process.impl;import com.alibaba.fastjson.JSONArray;import com.google.common.collect.Maps;im...原创 2018-07-16 19:01:09 · 1526 阅读 · 0 评论 -
《深入理解Spark》之spark2.3结构化(Structured Streaming)的流之Streaming+streaming join
pom文件如下<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>2.3.0</version></depend原创 2018-07-23 18:18:14 · 2394 阅读 · 2 评论 -
《深入理解Spark》之spark Streaming概念的再理解
1、spark Streaming是一个微批处理的框架2、批处理时间间隔 batchInterval >> 表示在batchInterval时间内Spark 所接收的数据被当做一个批次做处理3、批处理时间间隔(batchInterval)、窗口长度(windowLen)、窗口滑动时间(windowSlide)之间的关系 >> 3.1 spark提交作...原创 2018-07-15 12:21:35 · 800 阅读 · 0 评论 -
《深入理解Spark》之Spark sql 2.3.0 测试笔记(一)
package com.lyzx.spark.sql;public class People implements java.io.Serializable{ private String name; private int age; private String code; public String getName(){ return n...原创 2018-07-21 14:56:31 · 365 阅读 · 0 评论 -
《深入理解Spark》之Spark的整体运行流程
spark作为流行的计算框架,下面是其运行流程图,以Cluster模式为例Spark运行流程图,author:lyzx_hero1、通过spark-submit的方式提交作业,此时应用程序向master发送请求启动Driver程序 Driver程序负责对资源和任务的调度2、Master在资源充足的Worker上启动一个Driver进程 这里需要注意是Master找到资源充足的W...原创 2018-08-15 14:27:04 · 961 阅读 · 0 评论 -
《深入理解Spark》之sparkSQL 处理流程
原创 2018-10-11 17:45:11 · 289 阅读 · 0 评论 -
《深入理解Spark》之使用scala开发spark时,map+case结构使用技巧
scala开发Spark程序时使用map +case结构的一点小技巧 people.txt文本如下lyzx1,19lyzx2,20lyzx3,21lyzx4,22lyzx5,23lyzx6,24lyzx7,25lyzx7,25,哈哈托塔天王package com.lyzx.startimport org.apache.spark.{SparkConf, Sp...原创 2018-10-03 10:27:17 · 5351 阅读 · 0 评论 -
《深入理解Spark》之RDD的理解
RDD全称Resilient Distribution DataSet 弹性的分布式数据集其内部本身不存储数据,存储的类似于数据位置的指针,表明某个数据的具体位置当spark集群从hdfs文件系统中读取文件后会把文件映射为一个RDD,这个RDD是逻辑上的概念其内部不存储数据,其中每个RDD的Partition和HDFS文件系统中的block1、其内部是一系列的partiti...原创 2018-02-02 14:44:42 · 447 阅读 · 0 评论 -
《深入理解Spark》之Transform、foreachRDD、updateStateByKey以及reduceByKeyAndWindow
package com.lyzx.day32import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.streaming.{Seconds, StreamingContext}class T1 { /** * Transform Operation * * The tra...原创 2018-01-24 17:04:19 · 843 阅读 · 1 评论