Spark
文章平均质量分 82
谦卑t
终身学习
展开
-
Spark 概念
2、Spark 概念 官网:http://spark.apache.org/ Spark 是一种快速、通用、可扩展的大数据分析引擎 2009 年诞生于加州大学伯克利分校 AMPLab 2010 年开源 2013 年 6 月成为 Apache 孵化项目 2014 年 2 月成为 Apache 顶级项目 Spark 生态圈也称为 BDAS(伯克利数据分析栈),是伯...原创 2019-01-03 21:54:13 · 331 阅读 · 0 评论 -
Spark的WordCount
8、Spark的WordCount 8.1、Scala 版本的 WordCount packge com.mazh.sparkimport org.apache.spark.{SparkConf, SparkContext}/* *作者:https://blog.csdn.net/qq_42246689 * */object WordCount { def...原创 2019-01-08 10:14:30 · 322 阅读 · 1 评论 -
修改Spark的日志级别
7、修改Spark的日志级别 7.1、永久修改 从我们运行的 spark 程序运行的情况来看,可以看到大量的 INFO 级别的日志信息。淹没了 我们需要运行输出结果。可以通过修改 Spark 配置文件来 Spark 日志级别。 以下是详细步骤: 第一步:先进入 conf 目录[hadoop@hadoop05 conf]$ cd $SPARK_HOME/conf 第二步...原创 2019-01-08 10:08:12 · 1010 阅读 · 0 评论 -
【图文详细 】Spark 入门到实战一体!敢不敢为 成为Spark大牛迈出一步呢?
第一部分:Spark——基础知识1、Spark_产生背景2、Spark_概念3、Spark_特点4、Spark_应用场景5、Spark_集群安装6、Spark_基本使用7、修改Spark的日志级别8、Spark的WordCount 下面给一些图供大家参考原创 2019-01-07 20:04:41 · 371 阅读 · 0 评论 -
Spark 的基本使用
6、Spark 的基本使用 6.1、执行第一个 Spark 程序利用 Spark 自带的例子程序执行一个求 PI(蒙特卡洛算法)的程序:$SPARK_HOME/bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master spark://hadoop02:7077 \--executor-memo...原创 2019-01-07 19:44:11 · 6404 阅读 · 0 评论 -
Spark 的运行流程
目录1.1、Spark的基本运行流程1.2、运行流程图解1.3、SparkContext初始化1.4、Spark运行架构特点1.5、DAScheduler1.6、TaskScheduler1.7、SchedulerBackend1.8、Executor1.1、Spark的基本运行流程1、构建 DAG使用算子操作 RDD 进行各种 transfor...原创 2019-01-12 19:18:12 · 1084 阅读 · 0 评论 -
Spark的核心概念
大多数应该都要有实际写过 Spark 程序和提交任务到 Spark 集群后才有更好的理解 1、Application:表示你的应用程序,包含一个 Driver Program 和若干 Executor 2、Driver Program:Spark 中的 Driver 即运行上述 Application 的 main()函数并且创建 SparkContext,其中创建 SparkContex...原创 2019-01-12 18:54:26 · 364 阅读 · 0 评论 -
Spark集群的安装
5、Spark集群的安装 5.1、Spark版本的选择三大主要版本:Spark-0.XSpark-1.X(主要 Spark-1.3 和 Spark-1.6)Spark-2.X(最新 Spark-2.3) 官网首页:http://spark.apache.org/downloads.html 我们选择的版本:spark-2.3.0-bin-hadoop2.7.tg...原创 2019-01-06 16:58:07 · 304 阅读 · 0 评论 -
Spark应用场景
4、Spark应用场景目前大数据处理场景主要有以下几种类型:1、复杂的批处理(Batch Data Processing),偏重点在于处理海量数据的能力,至于处理 速度可忍受,通常的时间可能是在数十分钟到数小时; 2、基于历史数据的交互式查询(Interactive Query),通常的时间在数十秒到数十分钟之间 ;3、基于实时数据流的大数据处理(Streaming Data Pr...原创 2019-01-05 18:55:49 · 8973 阅读 · 0 评论 -
Spark Core 核心知识--RDD
目录1、Spark核心功能1.1 SparkContext1.2 存储体系1.3 计算引擎1.4 部署模式2、Spark扩展功能2.1 Spark2.2 Spark Streaming2.3 Spark Graphx2.4 Spark MLlib3、Spark核心概念4、Spark 基本架构 5、Spark 编程模型 6、RDD 6.1、...原创 2019-01-10 20:38:05 · 1198 阅读 · 1 评论 -
Spark 的产生背景
1、Spark 的产生背景 1.1、MapReduce 的发展 1.1.1、MRv1 的缺陷 早在 Hadoop1.x 版本,当时采用的是 MRv1 版本的 MapReduce 编程模型。MRv1 版本的实现 都封装在 org.apache.hadoop.mapred 包中,MRv1 的 Map 和 Reduce 是通过接口实现的。MRv1 包括三个部分:运行时环境(JobT...原创 2018-12-29 23:43:19 · 2142 阅读 · 0 评论 -
Spark 特点
3、Spark 特点 3.1、Speed:快速高效 随着实时大数据应用越来越多,Hadoop 作为离线的高吞吐、低响应框架已不能满足这类需 求。Hadoop MapReduce 的 Job 将中间输出和结果存储在 HDFS 中,读写 HDFS 造成磁盘 IO 成为瓶颈。Spark 允许将中间输出和结果存储在内存中,节省了大量的磁盘 IO。Apache Spark 使用最先进的 DAG...原创 2019-01-03 22:01:45 · 5426 阅读 · 0 评论 -
spark (java API) 在Intellij IDEA中开发并运行
概述:Spark 程序开发,调试和运行,intellij idea开发Spark java程序。 分两部分,第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行Spark程序.第二部分,将开发程序提交到Spark local或者hadoop YARN集群运行。Github项目源码图1,直接在intell...转载 2019-01-23 18:47:10 · 337 阅读 · 0 评论