自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 SparkCore

SparkCore 1-RDD基本概念 RDD弹性分布式数据集Resilient Distributed Dataset 1-弹性:既可以存储在磁盘也可以存储在内存 2-分布式:分布式的存储 3-数据集:集合 不可变、可分区、里面的元素可并行计算 为什么需要RDD呢? MR使用代码实现数据分析处理–缺点使用的大量的代码,复杂 Hive使用Hql实现数据分析,摆脱了Mr的繁琐的代码 Spark-Impala以内存为首的计算框架,将数据尽量放在内存中 传统的计算以MR为例的有大量的写磁盘,RDD是

2021-02-23 15:54:02 68

原创 spark的初步认识

课程介绍 Spark入门、环境搭建、WordCount Spark 概述 1- spark 历史 2009年诞生于美国加州大学伯克利分校AMP 实验室, 2014年2月,Spark 成为 Apache 的顶级项目 HADOOP复习回顾 HDFS:分布式存储系统 文件分区、分片:把大文件按 128M 切分成若干个小文件保存起来,一:便于存储,二:便于分布式计算 Yarn:资源调度系统 ​ 调度的方式: FIFO \ Fair \Capacity spark 与 hadoop 的区别 Hadoop

2021-02-23 14:31:25 156

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除