Spark
文章平均质量分 82
谦卑t
终身学习
展开
-
Spark 概念
2、Spark 概念 官网:http://spark.apache.org/ Spark 是一种快速、通用、可扩展的大数据分析引擎 2009 年诞生于加州大学伯克利分校 AMPLab 2010 年开源 2013 年 6 月成为 Apache 孵化项目 2014 年 2 月成为 Apache 顶级项目 Spark 生态圈也称为 BDAS(伯克利数据分析栈),是伯...原创 2019-01-03 21:54:13 · 344 阅读 · 0 评论 -
Spark的WordCount
8、Spark的WordCount 8.1、Scala 版本的 WordCount packge com.mazh.spark import org.apache.spark.{SparkConf, SparkContext} /* *作者:https://blog.csdn.net/qq_42246689 * */ object WordCount { def...原创 2019-01-08 10:14:30 · 338 阅读 · 1 评论 -
修改Spark的日志级别
7、修改Spark的日志级别 7.1、永久修改 从我们运行的 spark 程序运行的情况来看,可以看到大量的 INFO 级别的日志信息。淹没了 我们需要运行输出结果。可以通过修改 Spark 配置文件来 Spark 日志级别。 以下是详细步骤: 第一步:先进入 conf 目录 [hadoop@hadoop05 conf]$ cd $SPARK_HOME/conf 第二步...原创 2019-01-08 10:08:12 · 1023 阅读 · 0 评论 -
【图文详细 】Spark 入门到实战一体!敢不敢为 成为Spark大牛迈出一步呢?
第一部分:Spark——基础知识 1、Spark_产生背景 2、Spark_概念 3、Spark_特点 4、Spark_应用场景 5、Spark_集群安装 6、Spark_基本使用 7、修改Spark的日志级别 8、Spark的WordCount 下面给一些图供大家参考原创 2019-01-07 20:04:41 · 383 阅读 · 0 评论 -
Spark 的基本使用
6、Spark 的基本使用 6.1、执行第一个 Spark 程序 利用 Spark 自带的例子程序执行一个求 PI(蒙特卡洛算法)的程序: $SPARK_HOME/bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://hadoop02:7077 \ --executor-memo...原创 2019-01-07 19:44:11 · 6422 阅读 · 0 评论 -
Spark 的运行流程
目录 1.1、Spark的基本运行流程 1.2、运行流程图解 1.3、SparkContext初始化 1.4、Spark运行架构特点 1.5、DAScheduler 1.6、TaskScheduler 1.7、SchedulerBackend 1.8、Executor 1.1、Spark的基本运行流程 1、构建 DAG 使用算子操作 RDD 进行各种 transfor...原创 2019-01-12 19:18:12 · 1136 阅读 · 0 评论 -
Spark的核心概念
大多数应该都要有实际写过 Spark 程序和提交任务到 Spark 集群后才有更好的理解 1、Application:表示你的应用程序,包含一个 Driver Program 和若干 Executor 2、Driver Program:Spark 中的 Driver 即运行上述 Application 的 main()函数并且创建 SparkContext,其中创建 SparkContex...原创 2019-01-12 18:54:26 · 379 阅读 · 0 评论 -
Spark集群的安装
5、Spark集群的安装 5.1、Spark版本的选择 三大主要版本: Spark-0.X Spark-1.X(主要 Spark-1.3 和 Spark-1.6) Spark-2.X(最新 Spark-2.3) 官网首页:http://spark.apache.org/downloads.html 我们选择的版本:spark-2.3.0-bin-hadoop2.7.tg...原创 2019-01-06 16:58:07 · 320 阅读 · 0 评论 -
Spark应用场景
4、Spark应用场景 目前大数据处理场景主要有以下几种类型: 1、复杂的批处理(Batch Data Processing),偏重点在于处理 海量数据的能力,至于处理 速度可忍受,通常的时间可能是在数十分钟到数小时; 2、基于历史数据的交互式查询(Interactive Query),通常的时间在数十秒到数十分钟之间 ; 3、基于实时数据流的大数据处理(Streaming Data Pr...原创 2019-01-05 18:55:49 · 9005 阅读 · 0 评论 -
Spark Core 核心知识--RDD
目录 1、Spark核心功能 1.1 SparkContext 1.2 存储体系 1.3 计算引擎 1.4 部署模式 2、Spark扩展功能 2.1 Spark 2.2 Spark Streaming 2.3 Spark Graphx 2.4 Spark MLlib 3、Spark核心概念 4、Spark 基本架构 5、Spark 编程模型 6、RDD 6.1、...原创 2019-01-10 20:38:05 · 1208 阅读 · 1 评论 -
Spark 的产生背景
1、Spark 的产生背景 1.1、MapReduce 的发展 1.1.1、MRv1 的缺陷 早在 Hadoop1.x 版本,当时采用的是 MRv1 版本的 MapReduce 编程模型。MRv1 版本的实现 都封装在 org.apache.hadoop.mapred 包中,MRv1 的 Map 和 Reduce 是通过接口实现的。MRv1 包括三个部分: 运行时环境(JobT...原创 2018-12-29 23:43:19 · 2163 阅读 · 0 评论 -
Spark 特点
3、Spark 特点 3.1、Speed:快速高效 随着实时大数据应用越来越多,Hadoop 作为离线的高吞吐、低响应框架已不能满足这类需 求。Hadoop MapReduce 的 Job 将中间输出和结果存储在 HDFS 中,读写 HDFS 造成磁盘 IO 成为瓶颈。Spark 允许将中间输出和结果存储在内存中,节省了大量的磁盘 IO。Apache Spark 使用最先进的 DAG...原创 2019-01-03 22:01:45 · 5440 阅读 · 0 评论 -
spark (java API) 在Intellij IDEA中开发并运行
概述:Spark 程序开发,调试和运行,intellij idea开发Spark java程序。 分两部分,第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行Spark程序.第二部分,将开发程序提交到Spark local或者hadoop YARN集群运行。Github项目源码 图1,直接在intell...转载 2019-01-23 18:47:10 · 352 阅读 · 0 评论