2020年01月_SuperBigData~

原创 Spark中aggregate算子和aggregateByKey算子

美图欣赏：aggregate复杂例子：scala> import scala.math._import scala.math._scala> var rdd1 = sc.parallelize(List("12","34","567","8901"),2)rdd1: org.apache.spark.rdd.RDD[String] = ParallelCol...

2020-01-31 21:56:06 312 1

原创 Flink任务提交流程和任务调度原理

美图欣赏：一.任务提交流程：Flink任务提交后，Client向HDFS上传Flink的Jar包和配置，之后向Yarn ResourceManager提交任务，ResourceManager分配Container资源并通知对应的NodeManager启动ApplicationMaster，ApplicationMaster启动后加载Flink的Jar包和配置...

2020-01-30 22:14:46 4496

原创 Flink用Java测试WordCount

美图欣赏：Flink编程模型每个Flink程序都包含以下若干流程 1、获取执行环境 2、加载、创建初始数据 source 3、转换数据 transformation 4、放置计算结果位置 sink ...

2020-01-30 22:01:23 1565

原创 Flink的出生之谜

美图欣赏：初识FlinkFlink起源于Stratosphere项目，Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目，2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会，参加这个孵化项目的初始成员是Stratosphere系统的核心开发人员，2014年12月，Flink一跃成为Apach...

2020-01-29 20:08:49 754 5

原创 Flink的技术演变之路

美图欣赏：一.流处理语义At most once（最多一次）：每条数据记录最多被处理一次，潜台词也表明数据会有丢失（没被处理掉）的可能。 At least once（最少一次）：每条数据记录至少被处理一次。这个比上一点强的地方在于这里至少保证数据不会丢，至少被处理过，唯一不足之处在于数据可能会被重复处理。 Exactly once（恰好一次）：每条数据记录正好被处理一次。没有...

2020-01-29 16:38:16 379

依稀记得，毕业那天，我们导员发给我毕业证的时候对我说“你可是咱们系的风云人物啊”，哎呀，别提当时多开心啦????，嗯，我们导员是所有导员中最帅的一个，真的????不过，导员说的是实话，很多人都叫我大神的，为啥，因为我知道这32个网站啊，你说强不强????，这次是绝对的干货，看好啦，走起来！PS：每个网站都是学计算机混互联网必须知道的，真的牛杯，我就不过多介绍了，大家自行探索，觉得没用的，尽管留言吐槽吧????...

2020-01-29 11:33:25 565

原创 spark中mapPartitionsWithIndex高级算子和aggregate高级算子

美图欣赏：一.spark中高级算子：比较复杂，功能是比较丰富**mapPartitionsWithIndex**对RDD的每个分区操作，可以获取到分区号scala> def fun1(index:Int,itea:Iterator[Int]):Iterator[String] = { | itea.toList.map(x => "[partid:" +...

2020-01-28 16:23:56 556

原创 RDD的依赖关系和Spark任务中的Stage

美图欣赏：一.RDD的依赖关系RDD和它依赖的父RDD（s）的关系有两种不同的类型，即窄依赖（narrow dependency）和宽依赖（wide dependency）。窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用总结：窄依赖我们形象的比喻为独生子女宽依赖指的是多个子RDD的Partition会依赖同一个父RDD...

2020-01-28 16:11:02 280

原创 Spark中RDD的缓存机制

美图欣赏：RDD的缓存机制：默认将数据缓存在内存中 1、提高性能 2.缓存使用的函数cache，Persist，**标识RDD可以被缓存** cache函数底层调用Persist storage level：标识缓存的位置 MEMORY_ONLY...

2020-01-26 18:43:30 736 1

原创 sparkRDD中Transformation算子

美图欣赏：RDD算子（函数）：1.Transformation：延时计算，Lazy修饰，不会立即触发计算。重点scala> var rdd1 = sc.parallelize(List(2,4,6,1,9,6,7))rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at para...

2020-01-23 21:49:25 468

原创 Spark中Transformation算子和Action算子详细介绍

美图欣赏：一.Transformation算子 RDD中的所有转换都是延迟加载的，也就是说，它们并不会直接计算结果。相反的，它们只是记住这些应用到基础数据集（例如一个文件）上的转换动作。只有当发生一个要求返回结果给Driver的动作时，这些转换才会真正运行。这种设计让Spark更加有效率地运行。转换含义 m...

2020-01-23 19:23:59 979

原创 spark打包程序提交任务

美图欣赏：一.操作：拷贝一个全类名：程序：import org.apache.spark.{SparkConf, SparkContext}/** * * Scala的word count * */object WordCountScala extends App { //获取spark的环境,setAppName定义应用程序的名字，s...

2020-01-22 16:53:09 869

原创心得

1.和优秀的在一起你会越来越优秀-（远离低级趣味的人-打游戏）2. 每个行业的顶峰都是成功人士，都能赚到很多钱，但是需要你比别人付出几倍的辛苦3. 大学不在于在哪里上学，在于你怎么学习4. 大学的精髓在于自律，自强，奋斗不息5. 大学越舒适，你后面出来越辛苦，甚至是一辈子6. 没有人会随随便便成功7. 不要特意追求女朋友，自身好了，女朋友会自然而然找到最好的8. 学不在于广，在于深度，一定要选一...

2020-01-22 01:59:04 265

原创揭秘Spark中RDD算子是什么

1、RDD基础 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。二.官网...

2020-01-21 19:53:49 448

原创 spark shell提交

spark-shell（REPL）（1.）直接运行spark-shell启动的是本地的命令：[root@bigdata111 ~]#spark-shellSpark context available as 'sc' (master = local[*], app id = local-1577740473039).scala> sc.textFile("/opt/...

2020-01-21 15:18:24 232

原创 Spark任务提交流程

一.Spark任务提交流程图：二.分析流程1.客户端先向主节点请求2.主节点进行任务分配，接收请求3.主节点任务分配完成，客户端开始真正提交到work节点运行 ...

2020-01-21 11:46:56 324

原创 Spark submit提交求PI

一. spark提交任务方式：1.第一种方法：spark-submit:提交任务的，使用spark Demo求PI，蒙特卡洛求PI（圆周率）[root@bigdata111 spark-2.1.0-bin-hadoop2.7]# ./bin/spark-submit --master spark://bigdata111:7077 --class org.apache.spar...

2020-01-21 11:25:10 3004

原创 Spark用Java编写WordCount

一.Spark用Java编写WordCountimport org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContex...

2020-01-20 19:31:07 445

原创用Flink测试WordCount案例

一 ./bin/flink run -m bigdata115:8081 ./examples/batch/WordCount.jar --input /usr/local/cc.txt[root@bigdata115 flink-1.6.2]# ./bin/flink run -m bigdata115:8081 ./examples/batch/WordCount.jar --in...

2020-01-17 18:58:04 1740

原创搭建Flink的伪分布式

一.Flink可以选择的部署方式有：Local、Standalone（资源利用率低）、Yarn、Mesos、Docker、Kubernetes、AWS。二.搭建伪分布式Flink:a.这里选择flink的版本是：flink-1.6.2-bin-hadoop24-scala_2.11.tgzb.进行解压：c.解压完成后：d.进入flink的...

2020-01-17 17:17:11 1543

原创 2.Hadoop的起源与知识背景

1大数据的定义大数据(Big Data)，又称为巨量资料，指无法在一定时间范围内用常规软件工具进行捕授，管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、增长率和多样化的信息资产。大数据由巨型数据集组成，这些数据集大小常超出入类在可接受时间下的收集、管理和处理能力。大数据的大小经常改变，截至2012年，单...

2020-01-14 18:55:12 811 1

原创搭建spark的完全分布式

一.Spark Standalone全分布的部署配置文件：conf/spark-env.shexport JAVA_HOME=/opt/module/jdk1 export SPARK_MASTER_HOST=bigdata111 export SPARK_MASTER_PORT=7077 下面的可以不写，默认 export SPARK_WORKER_CORES=1 export...

2020-01-13 16:55:01 645

原创搭建spark的伪分布式

一.Spark的安装与部署一.Spark的安装部署方式有以下几种模式：Standalone（常用） YARN（常用） Mesos Amazon EC2（1）Spark Standalone伪分布的部署配置文件：conf/spark-env.sh export JAVA_HOME=/opt/module/jdk export SPARK_MASTER_HOST=bigdat...

2020-01-13 16:36:18 364

原创 Spark用Scala编写WordCount

Spark编写WordCount案例：import org.apache.spark.{SparkConf, SparkContext}/** * * Scala的word count * */object WordCountScala extends App { //获取spark的环境,setAppName定义应用程序的名字，setMaster制定任务运行的模式, ...

2020-01-13 09:59:15 434

原创荆棘遍地，鲜花满开（随笔二）

荆棘遍地，鲜花满开 2019感觉时光飞逝，一路走来真的也坎坷，幸好的是自己坚持过来了。一步，一个脚印。在学习的过程中，出现了很多情况与问题，也很头痛。总会碰见一些奇怪的问题，但无能为力的是自己解决不了，就很尴尬，也很不解。但是，后...

2020-01-13 09:19:11 292

原创 Spark的体系架构

1、Spark集群的体系结构官方的一张图：组件Spark应用程序在群集上作为独立的进程集运行，由SparkContext主程序中的对象（称为驱动程序）协调。具体来说，要在集群上运行，SparkContext可以连接到几种类型的集群管理器（Spark自己的独立集群管理器Mesos或YARN），它们可以在应用程序之间分配资源。连接后，Spark会在集群中的节点...

2020-01-12 22:09:47 805

原创搭建Spark HA 模式

（1）基于文件系统的单点恢复主要用于开发或测试环境。当spark提供目录保存spark Application和worker的注册信息，并将他们的恢复状态写入该目录中，这时，一旦Master发生故障，就可以通过重新启动Master进程（./sbin/start-master.sh），恢复已运行的spark Application和worker的注册信息。基于文件系统的单点恢复，主要是在sp...

2020-01-12 17:56:06 575

知其然，知其所以然