spark环境搭建

最新推荐文章于 2024-06-27 12:30:00 发布

我能想到的

最新推荐文章于 2024-06-27 12:30:00 发布

阅读量168

点赞数

分类专栏：大数据文章标签： spark

本文链接：https://blog.csdn.net/wangping623/article/details/88557337

版权

大数据专栏收录该内容

13 篇文章 0 订阅

订阅专栏

1. spark源码编译

（1）地址https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0-bin-sources.tgz

2. 编译

参考官网http://spark.apache.org/docs/latest/building-spark.html

3. 执行下面的命令进行编译

./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0

4. 对生成的tgz包进行安装

5. 测试

./bin/spark-shell

6. 上面搭建的是本地环境，后面再总结spark on yarn

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

我能想到的

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

大数据之Spark环境搭建

weixin_43339889的博客

03-19

1142

本文主要介绍Spark相关环境搭建

Spark环境搭建-Windows

qq_47844519的博客

07-06

2224

spark Windows搭建

参与评论您还未登录，请先登录后发表或查看评论

Spark环境搭建

weixin_44213009的博客

03-14

612

Spark作为一个数据处理框架和计算引擎，被设计在所有常见的集群环境中运行, 在国内工作中主流的环境为Yarn，不过逐渐容器式环境也慢慢流行起来。接下来，我们就分别看看不同环境下Spark的运行。

Spark环境搭建教程

xgb2018的博客

03-27

4293

Spark环境搭建 Spark Local本地模式 Standalone-独立集群 Standalone-HA Spark-On-Yarn Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎

spark环境搭建java_Spark环境搭建

weixin_36316642的博客

02-16

870

一、Java安装1、安装目录准备在安装这些包之前在家目录下创建一个app的目录，app目录中创建一个tmp目录：[root@hadoop-master ~]#mkdir -p app/tmp2、解压JDK上传JDK1.8版本jdk-8u74-linux-x64.tar.gz到linux上，并且将其解压到app目录下：[root@hadoop-master ~]#tar -xzvf jdk-8u7...

Spark环境搭建（保姆级教程）

最新发布

07-11

### Spark环境搭建与使用方法详解 #### 一、引言 Apache Spark作为一款高性能的数据处理框架，被广泛应用于大规模数据处理场景中。本文将详细介绍如何搭建Spark环境，并介绍其基本使用方法。通过以下步骤，您将...

电商数仓项目系列一：数据仓库简介

wangping623的专栏

09-10

4601

一、数仓定义数据仓库顾名思义就是存储数据的仓库，不同于业务数据库用作业务支撑，数据仓库是分析系统最核心的组成部分，使用这些数据为我们的报表分析（各种销售指标），广告推广（在什么地方、什么渠道投放广告），app、网站优化（商品如何展示，排列），个性化推荐等服务领域提供数据支持。既然是数据仓库，那么数据仓库的数据从哪里来？在数据仓库中怎么存储？如何将源数据存储到数仓中，这些数据将来有什么用？下面分...

spark学习笔记2（使用spark Sql进行离线数据分析项目）

wangping623的专栏

03-12

4385

网站日志分析实战.项目一、用户行为日志概述 1. 用户访问、浏览、搜索、点击等行为都会被记录在网站的服务器上。 2. 用户的访问信息主要包括如下内容：（1）系统属性。（操作系统、浏览器）（2）点击的 url, 从什么 url 跳转过来（3）用户的sessionI...

idea安装scala插件

wangping623的专栏

07-13

2349

1. 查看自己的idea版本号，点击help -> about 2. 查看版本号 3. 在这个网址下载与idea版本对应的scala插件，注意需要与idea版本对应，否则安装不了。 https://plugins.jetbrains.com/plugin/1347-scala/versions 4. 安装scala插件（1）在菜单栏点击file -> Setting...

spark学习笔记3（使用spark Sql进行离线数据分析项目数据的可视化、yarn运行、优化）

wangping623的专栏

03-13

1364

八、数据可视化 1. Echarts （百度）的使用 2. 前面统计的结果存放在 Mysql 中，需要使用 Echarts展示出来 3. 使用 Echarts （详见百度官网）（1) 从官网下载 echarts.min.js (2) 在 html 的头部引入echarts.min.js （3) 在官网复制需要的图形的脚本文件并进行相应的修改 4.使用 idea 创建 web 项...

使用hql验证身份证号码的合法性

wangping623的专栏

07-31

441

一、身份证号码的组成规则（1）第1、2位数字表示：所在省份的代码; （2）第3、4位数字表示：所在城市的代码；（3）第5、6位数字表示：所在区县的代码；（4）第7、8、9、10位代表出生年；（5）第11位、12位表示：出生月；（6）第13位、14位表示：出生日；（7）第15、16位表示：同年同月同日同地区出生的顺序；（8）第17位表示性别：奇数表示男性，偶数表示女性；（9）...

大数据环境搭建1：apache hadoop环境搭建（centos7）

wangping623的专栏

07-18

438

1. 集群规划 2. 修改主机名（三台机器） 3. 设置ip地址（如果有图形界面，可以直接通过图形界面进行设置，三台机器） 4. 配置主机名映射(三台机器) 5. 关闭防火墙和selinux（三台机器） 6. 安装jdk（略） 7. 拍摄快照，方便日后重新搭建环境 8. 配置ssh免密码登录 9. 下载apache hadoop2.7.7 10. 解压安装had...

Spark环境搭建与使用

04-05

Spark环境搭建与使用 Apache Spark是一个开源的大数据处理框架，可以快速、高效地处理大规模的数据集。它支持多种数据处理方式，包括批处理、流处理和机器学习等。 Spark可以在本地模式下运行，也可以在分布式模式下运行。在分布式模式下，Spark可以利用多台服务器的计算资源，进行大规模的数据处理。本文将介绍如何在本地环境中搭建Spark，并通过一个简单的例子来演示Spark的使用。 Spark环境搭建 在开始之前，需要确认已经安装了Java环境。可以通过以下命令检查Java环境是否已经安装： ``` java -version ``` 如果Java环境没有安装，可以去官网下载并安装Java。接下来，需要下载Spark。可以从官网下载最新版本的Spark。下载完成后，解压缩到指定目录。打开终端，进入Spark的bin目录，执行以下命令启动Spark： ``` ./spark-shell ``` 这个命令将启动Spark的交互式Shell。在Shell中，可以输入Spark的API命令进行数据处理。 Spark使用示例下面，通过一个简单的例子来演示Spark的使用。该例子将统计一组数字中的奇数个数。首先，在Spark的Shell中，创建一个RDD： ``` val nums = sc.parallelize(1 to 10) ``` 这个命令将创建一个包含1到10的数字的RDD。接下来，通过filter()方法，筛选出奇数： ``` val odds = nums.filter(_ % 2 != 0) ``` 这个命令将创建一个包含奇数的RDD。最后，通过count()方法，计算奇数的个数： ``` val count = odds.count() ``` 这个命令将返回奇数的个数。可以通过以下命令输出结果： ``` println(count) ``` 这个例子演示了Spark的基本用法。通过Spark的API，可以快速、高效地处理大规模的数据集。总结本文介绍了如何在本地环境中搭建Spark，并通过一个简单的例子来演示Spark的使用。Spark是一个强大的大数据处理框架，可以帮助我们快速、高效地处理大规模的数据集。