Spark
文章平均质量分 63
Java朱老师
以其昭昭,使人昭昭
展开
-
Spark3.2教程(十)编程Scala程序在Standalone集群中运行
如果运行出现以下报错:Exception in thread "main" java.lang.NoSuchMethodError: scala.reflect.ClassTag$.Int()Lscala/reflect/ManifestFactory$IntManifest;是Scala版本不匹配造成,请参见:Spark3.2教程(前置)关于Spark3.2.0与Scala版本的坑在IDEA中开发:package com.alanimport org.apache.spark.{Spar原创 2021-12-24 22:00:00 · 1511 阅读 · 0 评论 -
Spark3.2教程(九)CentOS7下Spark Standalone分布式搭建
Spark搭建方式有local、Standalone、on Yarn等。local模式适合程序的开发测试Standalone模式适合小规模数据on Yarn适合大数据量大,并且可能依赖于其他计算引擎,如MapReduce,这样可以更好的和Hadoop集成 因为Spark本质上是一个计算引擎,对于学习它而言,用原创 2021-12-23 23:15:00 · 1468 阅读 · 0 评论 -
Spark3.2教程(八)一个简单的Spark Streaming处理网络流数据
MapReduce及Spark批处理、Spark SQL只能进行离线计算,无法满足即时性业务需求,如实时推荐、实时网站性能分析等。 流式计算可以解决这些问题,目前有三种比较常用的流式计算框架,它们分别是Storm,Spark Streaming和Flink。原创 2021-12-23 22:00:00 · 1155 阅读 · 0 评论 -
Spark3.2教程(七)IDEA下Java开发Spark SQL
上一篇文章中,我们使用了Scala语言调用Spark SQL接口进行了开发,本篇文章我们使用Java语言进行同样业务功能的处理,依然是对JSON、Txt文本进行处理。 JSON和Txt文件内容如下所示:{"name":"Michael"}{"name":"Andy", "age":30}{"name":"Just原创 2021-12-21 22:15:00 · 1880 阅读 · 0 评论 -
Spark3.2教程(六)IDEA下Scala开发Spark SQL
Spark SQL是为了提供对结构化数据处理而推出的技术。 Spark自带的例子还是比较详尽而浅显易懂的。本次Spark SQL,我们通过研究Spark自带的教程demo来学习。Spark自带的demo在examples\src\main目录下,如下图所示,针对相同技术提供了不同语言的实现方式,总体而言还是S...原创 2021-12-21 11:04:13 · 1487 阅读 · 0 评论 -
Spark3.2教程(五)IDEA下Java开发Spark词频统计
上一篇文章中,使用了Scala开发了词频统计,本篇文章我们使用Java开发同样的词频统计,借以对比两门语言的不同。一、创建我们熟悉的Maven Java原创 2021-12-18 22:43:34 · 2145 阅读 · 0 评论 -
Spark3.2教程(四)IDEA下Scala开发Spark词频统计
本篇文章,讲解在Windows10下,使用IDEA搭建好的Maven Scala项目进行本地的Spark词频统计的项目开发工作。在上一篇文章中创建好的Module的package下,新建Scala类,选择object形式:原创 2021-12-18 19:19:14 · 2796 阅读 · 0 评论 -
spark3.2教程(三)Windows10下使用IDEA搭建Scala开发Spark的环境
在IDEA中开发Spark,可以使用两种方式环境方式,一是使用本地Scala库,建立Scala项目,导入Spark jar包。一种是通过Maven引入Scala、Spark依赖。我们本次使用Maven的方式,符合Java开发者的习惯于行业规范。原创 2021-12-18 18:52:58 · 2669 阅读 · 0 评论 -
Spark3.2教程(二)Windows下Spark Shell编程实现词频统计
Spark提供了两种方式编程方式:spark-shell是一个基于Scala语言的交互式解释器,类似于 Scala 提供的交互式解释器, 可以在此直接编写Scala执行。spark-submitSpark submit是一个命令, 用于提交 Scala 编写的基于 Spark 框架, 这种方式可以支撑在开发工具中开发玩Scala代码之后,在集群中运行任务。下面我们准备Spark Shell词频统计编程的单词文件,放在D://test/words.txtapple orange pearbana原创 2021-12-17 22:45:00 · 9620 阅读 · 0 评论 -
Spark3.2教程(一)Windows10搭建Spark3.2.0
目前Spark官方提供的最新版本3.2.0,是2021年10月份发布,但是该版本搭建Windows下环境,在使用spark-shell时,会报以下错误,尚无解决方案。退而求其次,使用Spark3.1.2,则完全正常。本次搭建环境,所使用到的系统为Windows10,JDK1.8,Hadoop3.3.1,Scala2.1.3,Spark为3.1.2注意过程中,所解压的文件不要放在有空格的文件夹中,CMD使用管理员身份打开。首先在Windows上搭建Hadoop,请参考:原创 2021-12-17 22:15:00 · 3126 阅读 · 1 评论 -
Spark3.2教程(前置)关于Spark3.2.0与Scala版本的坑
搭建和使用最新版的Spark3.2.0,在版本上踩了很多坑,特此记录一下,避免后来者犯错。首先看下图,即官网下载Spark的版本选择上的红框介绍: 这里介绍了Spark3用的是Scala2.12,Spark3.2+用的是Scala2.13,但是如果下载下来会发现,该包下的Scala版本是2.12.15,如下图所示:原创 2021-12-24 13:33:58 · 5685 阅读 · 0 评论