spark之4：编程指南

最新推荐文章于 2024-07-11 16:52:16 发布

jediael_lu

最新推荐文章于 2024-07-11 16:52:16 发布

阅读量421

点赞数

分类专栏： X.1大数据文章标签： spark

本文链接：https://blog.csdn.net/jediael_lu/article/details/77097275

版权

X.1大数据专栏收录该内容

103 篇文章 0 订阅

订阅专栏

spark之4：编程指南

@(SPARK)[spark, 大数据]

（一）快速入门：基本步骤

1、创建一个maven项目

2、增加pom.xml中的依赖

    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.10</artifactId>
        <version>1.5.1</version>
    </dependency>

3、写代码

package com.lujinhong.sparkdemo

import org.apache.spark.SparkContext

object GrepWord {
  def grepCountLog(path: String, keyWord: String) {

    println("grep " + keyWord + " in " + path + ", the lineCount is: ")
    val all = new SparkContext().textFile(path)
    val ret = all.filter(line => line.contains(keyWord))
    println(ret.count)
  }

  def main(args: Array[String]) {
    grepCountLog("/tmp/lujinhong", "\"server\"");
  }
}

以上代码在hdfs中的某个目录grep “server”这个关键字。

4、打包代码

5、执行代码

/home/hadoop/spark/bin/spark-submit --master yarn-client --class  com.lujinhong.sparkdemo.GrepWor4d target/sparkdemo-0.0.1-SNAPSHOT.jar

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jediael_lu

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【spark床头书系列】Spark Streaming 编程权威使用指南

wang2leee的博客

11-30

1103

本文档为Spark的旧版本Streaming引擎。Spark Streaming 不再更新，是一个遗留项目。在Spark中有一种新的、更易用的流处理引擎，称为结构化流式处理。您应该使用Spark结构化流处理来开发流式应用和流水线。请参阅结构化流式处理编程指南。*

Spark—GraphX编程指南

最新发布

qq_33240556的博客

07-11

295

Spark SQL是Spark的一个模块，引入了DataFrame和Dataset的概念，提供了SQL查询能力，使得数据处理更加灵活和高效。弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、可并行操作的分布式数据集合。Spark程序的入口点，负责初始化Spark应用程序，与Cluster Manager（如YARN或Mesos）通信，以及创建和管理RDD。Spark应用的主程序，负责创建SparkContext、定义RDD的转换和动作，以及调度任务到Executor上执行。

spark编程指南

技术成就梦想，梦想成就未来。If you try hard enough, it can be.

07-05

653

建议从学习Spark官方文档开始： 1、Quick Start - Spark 2.1.1 Documentation 2、Spark Programming Guide 这里有对应的中译版： 1、Spark官方文档－快速入门 2、Spark官方文档-Spark编程指南...

Spark 教程 - Spark入门指南：Spark是什么

qq_33240556的博客

07-11

433

Spark 不仅仅局限于批量数据处理，它还支持实时流处理（Spark Streaming）、交互式查询（Spark SQL）、机器学习（MLlib）和图形处理（GraphX），提供了一个统一的平台来处理各种类型的数据分析任务。Spark 引入了“弹性分布式数据集”（Resilient Distributed Datasets, RDD），这是一种容错的、可分区的、不可变的数据集合，能够在集群的内存中缓存，大大加速了迭代式算法和交互式数据挖掘的执行。

【大数据】Spark入门指南：从基础概念到实践应用全解析

BookSea的博客

10-10

538

在这个数据驱动的时代，信息的处理和分析变得越来越重要。而在众多的大数据处理框架中，Apache Spark以其独特的优势脱颖而出。

Spark编程指南之十：SparkSQL操作

砥砺前行的博客

03-10

569

读取文件 val df = spark.read.format(“json”).load(“in/test.json”); df.printSchema() Columns expr expr(&amp;amp;amp;amp;amp;amp;quot;&amp;amp;amp;amp;amp;amp;quot;)中可以填入表达式来完成查询操作。 Bucketing, Sorting and Partitioning df.select与spark.sql L

Spark 编程指南简体中文版.pdf

11-23

Spark 编程指南简体中文版本资源为 Spark 编程指南简体中文版，涵盖了 Spark 的基本概念、数据处理、流处理、图形处理和 SQL 等方面的内容。以下是该资源中的知识点总结： Spark 基础 * Spark Shell：交互式 ...

Spark结构式流编程指南

01-27

本文来自于博客园，本文结合一个小样例，进行模型编程，创建数据框流和数据集流以及管理流式查询，希望对您的学习有所帮助。 StructuredStreaming是一个可拓展，容错的，基于SparkSQL执行引擎的流处理引擎。使用小量...

spark 编程指南

11-16

本节课程提供一个使用 Spark 的快速介绍，首先我们使用 Spark 的交互式 shell(用 Python 或 Scala) 介绍它的 API。当演示如何在 Java, Scala 和 Python 写独立的程序时，看编程指南里完整的参考。

Spark-Streaming编程指南.docx

11-15

Spark Streaming 的强大之处在于它可以无缝集成 Spark Core、Spark SQL、MLlib 和 GraphX，允许用户在实时流处理中应用机器学习和图计算算法，实现复杂的数据分析任务。同时，通过 DStream 的窗口操作，可以实现时间...

Hadoop入门经典:WordCount

jediael_lu的专栏

08-20

4万+

以下程序在hadoop1.2.1上测试成功。本例先将源代码呈现，然后详细说明执行步骤，最后对源代码及执行过程进行分析。一、源代码 package org.jediael.hadoopdemo.wordcount; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop

Hadoop常见异常及其解决方案

jediael_lu的专栏

07-09

3万+

1、Shell$ExitCodeException 现象：运行hadoop job时出现如下异常： 14/07/09 14:42:50 INFO mapreduce.Job: Task Id : attempt_1404886826875_0007_m_000000_1, Status : FAILED Exception from container-launch: org.apache.

Hadoop配置文件

jediael_lu的专栏

08-19

3万+

部分内容参考：http://www.linuxqq.net/archives/964.html Hadoop有三个重要的配置文件：core-site.xml,hdfs-site.xml,mapred-site.xml，但这三个文件默认情况下均为空，其默认值保存在core-default.xml,hdfs-default.xml,mapred-default.xml中。这三个默

安装spark1.3.1单机环境

jediael_lu的专栏

04-27

2万+

本文介绍安装spark单机环境的方法，可用于测试及开发。主要分成以下4部分：（1）环境准备（2）安装scala （3）安装spark （4）验证安装情况 1、环境准备（1）配套软件版本要求：Spark runs on Java 6+ and Python 2.6+. For the Scala API, Spark 1.3.1 uses Scala 2.10. You wil

使用ToolRunner运行Hadoop程序基本原理分析

jediael_lu的专栏

08-22

2万+

为了简化命令行方式运行作业，Hadoop自带了一些辅助类。GenericOptionsParser是一个类，用来解释常用的Hadoop命令行选项，并根据需要，为Configuration对象设置相应的取值。通常不直接使用GenericOptionsParser，更方便的方式是：实现Tool接口，通过ToolRunner来运行应用程序，ToolRunner内部调用GenericOptionsPars

Spark编程入门：指南与实战

"Spark编程指南中文版是一本适合新手的教程书籍，涵盖了Spark的基本概念、操作及高级特性，包括SparkShell、独立应用程序、SparkRDDs、SparkStreaming、SparkSQL和GraphX等内容，旨在帮助读者全面理解和掌握Apache ...