spark-伪分布式搭建

本文介绍了如何在Hadoop 2.8.0环境下安装配置Spark 2.1.0,并通过Scala 2.12进行环境变量设置。通过具体的步骤说明了如何在系统中设置JAVA_HOME和SCALA_HOME等环境变量,并详细展示了如何使用Spark进行简单的文件读取与WordCount程序的实现。
摘要由CSDN通过智能技术生成

一.环境的准备(hadoop-2.8.0/spark-2.1.0/scala-2.12.)
hadoop的安装/scala的安装
二.安装配置
1.查看/etc/profile的配置

export JAVA_HOME=/opt/jdk
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export SCALA_HOME=/home/sulei/文档/scala-2.12.1
export PATH=${JAVA_HOME}/bin:$PATH
export PATH="$SCALA_HOME/bin:$PATH"

2.编辑conf/spark-env.sh

export JAVA_HOME=/opt/jdk
export SCALA_HOME=/home/sulei/文档/scala-2.12.1
export SPARK_WORKER_MEMORY=1G

3.查看web的界面
这里写图片描述
4.bin/pyspark

三.简单的程序的测试
**补充挂在
sulei@sulei:/opt/spark-2.1.0$ df -lh
文件系统 容量 已用 可用 已用% 挂载点
udev 3.4G 0 3.4G 0% /dev
tmpfs 694M 9.4M 685M 2% /run
/dev/sda11 40G 16G 22G 42% /
tmpfs 3.4G 588K 3.4G 1% /dev/shm
tmpfs 5.0M 4.0K 5.0M 1% /run/lock
tmpfs 3.4G 0 3.4G 0% /sys/fs/cgroup
/dev/sda2 256M 33M 224M 13% /boot/efi
tmpfs 694M 76K 694M 1% /run/user/1000
/dev/sda9 310G 272G 38G 88% /media/sulei/32B03CC6B03C9279
**

scala> val textFile=sc.textFile("README.md")
textFile: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] at textFile at <console>:24
#界面中没有出现效果,原因是:懒加载
#此处出错,如下

scala> val textFile=sc.textFile("../README.md")
textFile: org.apache.spark.rdd.RDD[String] = ../README.md MapPartitionsRDD[7] at textFile at <console>:24

scala> textFile.count()
res4: Long = 104                                                                

web的结果图


scala> textFile.first()
res5: String = # Apache Spark

scala> textFile.take(10)
res6: Array[String] = Array(# Apache Spark, "", Spark is a fast and general cluster computing system for Big Data. It provides, high-level APIs in Scala, Java, Python, and R, and an optimized engine that, supports general computation graphs for data analysis. It also supports a, rich set of higher-level tools including Spark SQL for SQL and DataFrames,, MLlib for machine learning, GraphX for graph processing,, and Spark Streaming for stream processing., "", <http://spark.apache.org/>)


scala> textFile.filter(line => line.contains("Spark")).count()
res7: Long = 20

四.wordcount程序

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值