自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 spark--持久化

相信大家都有这样的经历,当家里要来客人的时候会提前去买一大包食材准备用来招待,,可是每一个食材的保存时间是不一样的啊,那怎么办?我们会将食物进行分别存放有的放了桌子上,有的放冰箱里,这就是持久化的思想,当我们有目的之后,我们会去将计算结果进行存储,可是存储在哪里呢,如果放到磁盘中,我们的存储量虽然大了,但是问题是他的处理速度很慢,每次都需要去拿取数据然后在进行处理,对于磁盘的读写速度都是一个限制,...

2018-09-25 11:47:46 265

原创 spark--shuffle

在之前的博客里,我对于hadoop和spark的相关基础进行了一定的讲解,大致的运行流程已经基本清晰,就像一辆极品的跑车,大致的框架已经出来了,剩下的是优化的操作,就像兰博基尼和拖拉机的区别,都是4个轮子发动机驱动,但是,我想大家应该都喜欢兰博基尼不喜欢拖拉机吧,尤其是男生,好车发动机的轰鸣声,听着都会热血沸腾吧!那么,spark的研发在出期的时候因为当时条件的限制,数据量不会那么大,已有的硬件处...

2018-09-25 10:24:59 257

原创 Spark--RDD持久化

相信大家都知道的一个常识,在计算机的硬件中能够进行存储的就是内存和硬盘两个硬件,但是同样的,大家也很清楚,在同样的数据处理的读写过程中,硬盘和内存的运行效率差距是非常大的,而内存作为硬盘和cpu进行数据交换的中转站,属于临时存储器,虽然通过快速的数据传输速度弥补了硬盘容量大但是传送速度慢的特点,所以当计算在内存上进行会比磁盘上进行要快很多。 相信开车的朋友都知道,同样性能的车,在比较堵的城市道路...

2018-09-17 11:27:14 212

原创 spark--基础简介

因为工作需要,再整理spark基础的相关知识,所以在这里进行部分自己想法的整理,大家一起讨论、交流 首先是对于spark API的介绍,在saprk的官方网站的定义里面,对于spark的API的解释是可以支持Java、scala、python以及R语言四种在当今程序员世界中排名相当靠前的语言,那么,这四种语言有什么区别呢?因为spark是使用scala和java联合编写的,所以基于JVM编程的j...

2018-09-12 13:39:02 375

原创 spark--资源调度

在上一个博客里,我们将一辆汽车的油箱、发动机进行了大体的说明了,汽车的最主要的功能已经说明了,那么想让汽车发动起来,我们应该怎么办呢?对,司机,我们现在还缺一个司机来使用这些资源,那么这些资源是如何使用的呢? 在我们刚开始的时候,我对spark进行相应的简介的时候说过一个词,也在后面对这个词进行了具体的讲解,他就是RDD--分布式弹性数据集,它通过将计算数据持久化到内存中进行存储,提高了集群的运...

2018-09-06 17:24:27 269 1

原创 分布式存储和分布式计算的结合

再介绍了之前的hadoop以及spark的相关组件之后,就像一辆汽车一样,只有将所有的组件进行组装之后他才可以正常的上路,在公路上疾驶,今天我们就将之前的组件进行一个简单的安装 首先是油箱--分布式存储 在当今社会,数据量越来越大,就像女孩子看电视剧一样,我把你喜欢的电视剧、电影等等的视频资源全给你,一共10PB,只有一次的存储机会,那我们应该怎么存储呢?赵本山说过把一只大象存入冰箱一共需要三...

2018-09-03 09:41:27 659

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除