自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

知其然,知其所以然

大数据开发/数据仓库/数据架构/数据治理/数据运维/数据可视化 欢迎关注!一起学习!!!

  • 博客(27)
  • 资源 (2)
  • 收藏
  • 关注

原创 Spark中aggregate算子和aggregateByKey算子

美图欣赏:aggregate复杂例子:scala> import scala.math._import scala.math._scala> var rdd1 = sc.parallelize(List("12","34","567","8901"),2)rdd1: org.apache.spark.rdd.RDD[String] = ParallelCol...

2020-01-31 21:56:06 312 1

原创 Flink任务提交流程和任务调度原理

美图欣赏:一.任务提交流程:Flink任务提交后,Client向HDFS上传Flink的Jar包和配置,之后向Yarn ResourceManager提交任务,ResourceManager分配Container资源并通知对应的NodeManager启动ApplicationMaster,ApplicationMaster启动后加载Flink的Jar包和配置...

2020-01-30 22:14:46 4496

原创 Flink用Java测试WordCount

美图欣赏:Flink编程模型 每个Flink程序都包含以下若干流程 1、获取执行环境 2、加载、创建初始数据 source 3、转换数据 transformation 4、放置计算结果位置 sink ...

2020-01-30 22:01:23 1565

原创 Flink的出生之谜

美图欣赏:初识FlinkFlink起源于Stratosphere项目,Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会,参加这个孵化项目的初始成员是Stratosphere系统的核心开发人员,2014年12月,Flink一跃成为Apach...

2020-01-29 20:08:49 754 5

原创 Flink的技术演变之路

美图欣赏:一.流处理语义At most once(最多一次):每条数据记录最多被处理一次,潜台词也表明数据会有丢失(没被处理掉)的可能。 At least once(最少一次):每条数据记录至少被处理一次。这个比上一点强的地方在于这里至少保证数据不会丢,至少被处理过,唯一不足之处在于数据可能会被重复处理。 Exactly once(恰好一次):每条数据记录正好被处理一次。没有...

2020-01-29 16:38:16 379

转载 大学四年因为知道了这32个网站,我成了别人眼中的大神!

依稀记得,毕业那天,我们导员发给我毕业证的时候对我说“你可是咱们系的风云人物啊”,哎呀,别提当时多开心啦????,嗯,我们导员是所有导员中最帅的一个,真的????不过,导员说的是实话,很多人都叫我大神的,为啥,因为我知道这32个网站啊,你说强不强????,这次是绝对的干货,看好啦,走起来!PS:每个网站都是学计算机混互联网必须知道的,真的牛杯,我就不过多介绍了,大家自行探索,觉得没用的,尽管留言吐槽吧????...

2020-01-29 11:33:25 565

原创 spark中mapPartitionsWithIndex高级算子和aggregate高级算子

美图欣赏:一.spark中高级算子:比较复杂,功能是比较丰富**mapPartitionsWithIndex**对RDD的每个分区操作,可以获取到分区号scala> def fun1(index:Int,itea:Iterator[Int]):Iterator[String] = { | itea.toList.map(x => "[partid:" +...

2020-01-28 16:23:56 556

原创 RDD的依赖关系和Spark任务中的Stage

美图欣赏:一.RDD的依赖关系RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用总结:窄依赖我们形象的比喻为独生子女宽依赖指的是多个子RDD的Partition会依赖同一个父RDD...

2020-01-28 16:11:02 280

原创 Spark中RDD的缓存机制

美图欣赏:RDD的缓存机制:默认将数据缓存在内存中​ 1、提高性能​ 2.缓存使用的函数cache,Persist,**标识RDD可以被缓存**​ cache函数底层调用Persist​ storage level:标识缓存的位置​ MEMORY_ONLY...

2020-01-26 18:43:30 736 1

原创 sparkRDD中Transformation算子

美图欣赏:RDD算子(函数):1.Transformation:延时计算,Lazy修饰,不会立即触发计算。重点scala> var rdd1 = sc.parallelize(List(2,4,6,1,9,6,7))rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at para...

2020-01-23 21:49:25 468

原创 Spark中Transformation算子和Action算子详细介绍

美图欣赏:一.Transformation算子 RDD中的所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住这些应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结果给Driver的动作时,这些转换才会真正运行。这种设计让Spark更加有效率地运行。 转换 含义 m...

2020-01-23 19:23:59 979

原创 spark打包程序提交任务

美图欣赏:一.操作:拷贝一个全类名:程序:import org.apache.spark.{SparkConf, SparkContext}/** * * Scala的word count * */object WordCountScala extends App { //获取spark的环境,setAppName定义应用程序的名字,s...

2020-01-22 16:53:09 869

原创 心得

1.和优秀的在一起你会越来越优秀-(远离低级趣味的人-打游戏)2. 每个行业的顶峰都是成功人士,都能赚到很多钱,但是需要你比别人付出几倍的辛苦3. 大学不在于在哪里上学,在于你怎么学习4. 大学的精髓在于自律,自强,奋斗不息5. 大学越舒适,你后面出来越辛苦,甚至是一辈子6. 没有人会随随便便成功7. 不要特意追求女朋友,自身好了,女朋友会自然而然找到最好的8. 学不在于广,在于深度,一定要选一...

2020-01-22 01:59:04 265

原创 揭秘Spark中RDD算子是什么

1、RDD基础 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。二.官网...

2020-01-21 19:53:49 448

原创 spark shell提交

spark-shell(REPL)(1.)直接运行spark-shell启动的是本地的命令:[root@bigdata111 ~]#spark-shellSpark context available as 'sc' (master = local[*], app id = local-1577740473039).scala> sc.textFile("/opt/...

2020-01-21 15:18:24 232

原创 Spark任务提交流程

一.Spark任务提交流程图:二.分析流程1.客户端先向主节点请求2.主节点进行任务分配,接收请求3.主节点任务分配完成,客户端开始真正提交到work节点运行 ...

2020-01-21 11:46:56 324

原创 Spark submit提交求PI

一. spark提交任务方式:1.第一种方法:spark-submit:提交任务的,使用spark Demo求PI,蒙特卡洛求PI(圆周率)[root@bigdata111 spark-2.1.0-bin-hadoop2.7]# ./bin/spark-submit --master spark://bigdata111:7077 --class org.apache.spar...

2020-01-21 11:25:10 3004

原创 Spark用Java编写WordCount

一.Spark用Java编写WordCountimport org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContex...

2020-01-20 19:31:07 445

原创 用Flink测试WordCount案例

一 ./bin/flink run -m bigdata115:8081 ./examples/batch/WordCount.jar --input /usr/local/cc.txt[root@bigdata115 flink-1.6.2]# ./bin/flink run -m bigdata115:8081 ./examples/batch/WordCount.jar --in...

2020-01-17 18:58:04 1740

原创 搭建Flink的伪分布式

一.Flink可以选择的部署方式有:Local、Standalone(资源利用率低)、Yarn、Mesos、Docker、Kubernetes、AWS。二.搭建伪分布式Flink:a.这里选择flink的版本是:flink-1.6.2-bin-hadoop24-scala_2.11.tgzb.进行解压:c.解压完成后:d.进入flink的...

2020-01-17 17:17:11 1543

原创 2.Hadoop的起源与知识背景

1大数据的定义 大数据(Big Data), 又称为巨量资料,指无法在一定时间范围内用常规软件工具进行捕授,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、增长率和多样化的信息资产。 大数据由巨型数据集组成,这些数据集大小常超出入类在可接受时间下的收集、管理和处理能力。大数据的大小经常改变,截至2012年, 单...

2020-01-14 18:55:12 811 1

原创 搭建spark的完全分布式

一.Spark Standalone全分布的部署配置文件:conf/spark-env.shexport JAVA_HOME=/opt/module/jdk1 export SPARK_MASTER_HOST=bigdata111 export SPARK_MASTER_PORT=7077 下面的可以不写,默认 export SPARK_WORKER_CORES=1 export...

2020-01-13 16:55:01 645

原创 搭建spark的伪分布式

一.Spark的安装与部署一.Spark的安装部署方式有以下几种模式:Standalone(常用) YARN(常用) Mesos Amazon EC2(1)Spark Standalone伪分布的部署配置文件:conf/spark-env.sh export JAVA_HOME=/opt/module/jdk export SPARK_MASTER_HOST=bigdat...

2020-01-13 16:36:18 364

原创 Spark用Scala编写WordCount

Spark编写WordCount案例:import org.apache.spark.{SparkConf, SparkContext}/** * * Scala的word count * */object WordCountScala extends App { //获取spark的环境,setAppName定义应用程序的名字,setMaster制定任务运行的模式, ...

2020-01-13 09:59:15 434

原创 荆棘遍地,鲜花满开(随笔二)

荆棘遍地,鲜花满开 2019感觉时光飞逝,一路走来真的也坎坷,幸好的是自己坚持过来了。一步,一个脚印。在学习的过程中,出现了很多情况与问题,也很头痛。总会碰见一些奇怪的问题,但无能为力的是自己解决不了,就很尴尬,也很不解。但是,后...

2020-01-13 09:19:11 292

原创 Spark的体系架构

1、Spark集群的体系结构官方的一张图:组件Spark应用程序在群集上作为独立的进程集运行,由SparkContext主程序中的对象(称为驱动程序)协调。具体来说,要在集群上运行,SparkContext可以连接到几种类型的集群管理器(Spark自己的独立集群管理器Mesos或YARN),它们可以在应用程序之间分配资源。连接后,Spark会在集群中的节点...

2020-01-12 22:09:47 805

原创 搭建Spark HA 模式

(1)基于文件系统的单点恢复主要用于开发或测试环境。当spark提供目录保存spark Application和worker的注册信息,并将他们的恢复状态写入该目录中,这时,一旦Master发生故障,就可以通过重新启动Master进程(./sbin/start-master.sh),恢复已运行的spark Application和worker的注册信息。基于文件系统的单点恢复,主要是在sp...

2020-01-12 17:56:06 575

CDH6.3搭建及集成flink文档.docx

CDH6.3搭建及集成flink文档,亲测有效。

2021-03-24

CentOS7配置NAT模式网络详细步骤

CentOS7配置NAT模式网络详细步骤,学习

2019-09-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除