自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

TechQ

由浅入深讲解技术要点

  • 博客(4)
  • 收藏
  • 关注

原创 走进Spark生态圈:使用Maven构建Spark开发环境

Maven是什么?Maven是一个项目管理和综合工具. Maven提供了开发人员构建一个完整的生命周期框架. 开发团队可以自动完成项目的基础工具建设, Maven使用标准的目录结构和默认构建生命周期. 使用Maven的好处 1.Maven不仅是构建工具, 它还是依赖管理工具和项目管理工具, 提供了中央仓库, 能够帮我们自动下载构件 2.为了解决的依赖的增多, 版本不一致, 版

2017-11-30 22:19:12 2591

原创 走进Spark生态圈:RDD及其相关操作

RDD创建/转化/执行操作

2017-11-26 11:18:19 426

原创 走进Spark生态圈:运行程序在Spark集群

上一节 走进Spark生态圈:环境的安装与配置 我们在虚拟机上简单的搭建了运行于StandAlone的上的伪分布集群和全分布集群,并通过Spark的可视化查看集群的运行状态. 集群已经存在,这一节我们将会在集群上运行我们的第一个程序:统计文本中的单词数(简称:WordCount) 示例代码将使用Scala语言编写,运行在伪分布集群Spark81上Spark核心对象SparkConf:spar

2017-11-18 19:51:44 543

原创 走进Spark生态圈:环境的安装与配置

什么是Spark?Apache Spark 是一种大规模数据处理的快速通用引擎,使用基于内存的处理方式,较与MapReduce而言,解决了其shuffle多次IO操作带来的效率低问题,从而达到快速的大数据计算与分析Spark的优缺点优点快:基于内存的处理方式 易用性:可以使用多种编程语言进行开发,例如:Scala,Java,Python 通用性:适用于不同的处理场景 1.交互式查询 => Sp

2017-11-17 16:09:30 610

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除