Spark
nobody~
这个作者很懒,什么都没留下…
展开
-
SparkRDD常用算子实践(附运行效果图)
SparkRDD算子分为两类:Transformation与Action. Transformation:即延迟加载数据,Transformation会记录元数据信息,当计算任务触发Action时,才会真正开始计算。 Action:即立即加载数据,开始计算。 创建RDD的方式有两种: 1、通过sc.textFile(“/root/words.txt”)从文件系统中创建 RDD。 2、#通...原创 2017-12-14 20:27:15 · 8688 阅读 · 0 评论 -
大数据之Spark集群安装及简单使用
1、Spark集群安装 1.1. 安装 1.1.1. 机器部署 准备两台以上Linux服务器,安装好JDK1.7 1.1.2. 下载Spark安装包 下载地址:http://www.apache.org/dyn/closer.lua/spark/spark-1.5.2/spark-1.5.2-bin-hadoop2.6.tgz 上传解压安装包 上传spark-1....原创 2018-04-07 16:30:07 · 538 阅读 · 2 评论 -
大数据之Spark简介及RDD说明
前言: 本篇文章只是简单介绍下Spark,然后对Spark的RDD在做一个全面的介绍。由于博主知识有限,这里只是做一个简单的介绍。若有些地方有问题,请大家及时指出。后续随着深入的学习,会再进一步总结自己的学习成果。 1、Spark概述 1.1、什么是Spark(官网:http://spark.apache.org) Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生...原创 2018-04-07 18:01:07 · 670 阅读 · 0 评论 -
大数据之SparkSQL简介及DataFrame的使用
前言: 本文主要介绍下SparkSQL以及SparkSQL的简单使用。这里只是做了一个非常简单的介绍,后续工作中如果有用到相关的知识,我会再总结。 1、Spark SQL 1.1、Spark SQL概述 1.1.1、什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 ...原创 2018-04-07 20:25:41 · 615 阅读 · 0 评论