spark-伪分布式搭建

最新推荐文章于 2023-04-02 16:53:40 发布

shursulei

最新推荐文章于 2023-04-02 16:53:40 发布

阅读量524

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/shursulei/article/details/74355458

版权

spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文介绍了如何在Hadoop 2.8.0环境下安装配置Spark 2.1.0，并通过Scala 2.12进行环境变量设置。通过具体的步骤说明了如何在系统中设置JAVA_HOME和SCALA_HOME等环境变量，并详细展示了如何使用Spark进行简单的文件读取与WordCount程序的实现。

摘要由CSDN通过智能技术生成

一.环境的准备(hadoop-2.8.0/spark-2.1.0/scala-2.12.)
hadoop的安装/scala的安装
二.安装配置
1.查看/etc/profile的配置

export JAVA_HOME=/opt/jdk
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export SCALA_HOME=/home/sulei/文档/scala-2.12.1
export PATH=${JAVA_HOME}/bin:$PATH
export PATH="$SCALA_HOME/bin:$PATH"

2.编辑conf/spark-env.sh

export JAVA_HOME=/opt/jdk
export SCALA_HOME=/home/sulei/文档/scala-2.12.1
export SPARK_WORKER_MEMORY=1G

3.查看web的界面
这里写图片描述
4.bin/pyspark

三.简单的程序的测试
**补充挂在
sulei@sulei:/opt/spark-2.1.0$ df -lh 文件系统容量已用可用已用% 挂载点 udev 3.4G 0 3.4G 0% /dev tmpfs 694M 9.4M 685M 2% /run /dev/sda11 40G 16G 22G 42% / tmpfs 3.4G 588K 3.4G 1% /dev/shm tmpfs 5.0M 4.0K 5.0M 1% /run/lock tmpfs 3.4G 0 3.4G 0% /sys/fs/cgroup /dev/sda2 256M 33M 224M 13% /boot/efi tmpfs 694M 76K 694M 1% /run/user/1000 /dev/sda9 310G 272G 38G 88% /media/sulei/32B03CC6B03C9279**

scala> val textFile=sc.textFile("README.md")
textFile: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] at textFile at <console>:24
#界面中没有出现效果，原因是：懒加载
#此处出错,如下

scala> val textFile=sc.textFile("../README.md")
textFile: org.apache.spark.rdd.RDD[String] = ../README.md MapPartitionsRDD[7] at textFile at <console>:24

scala> textFile.count()
res4: Long = 104

web的结果图


scala> textFile.first()
res5: String = # Apache Spark

scala> textFile.take(10)
res6: Array[String] = Array(# Apache Spark, "", Spark is a fast and general cluster computing system for Big Data. It provides, high-level APIs in Scala, Java, Python, and R, and an optimized engine that, supports general computation graphs for data analysis. It also supports a, rich set of higher-level tools including Spark SQL for SQL and DataFrames,, MLlib for machine learning, GraphX for graph processing,, and Spark Streaming for stream processing., "", <http://spark.apache.org/>)


scala> textFile.filter(line => line.contains("Spark")).count()
res7: Long = 20