夫君子之行,静以修身,俭以养德,非淡泊无以明志,非宁静无以致远。
夫学须静也,才须学也,非学无以广才,非志无以成学。淫慢则不能励精,险躁则不能冶性。
年与时驰,意与日去,遂成枯落,多不接世,悲守穷庐,将复何及。
——诸葛亮《诫子书》
于文章中出现的任何错误请大家批评指出,一定及时修改
有任何想要讨论和学习的问题可联系我:yangmq@aliyun.com
Spark下载和安装(学习笔记)
一、Spark下载和安装
-
Spark安装 运行环境
Spark是Scala写的,运行在JVM上,所以运行环境Java7+
如果使用Python API,需要安装Python2.6+或者Python3.4+ -
Spark下载
服务器:centos7
下载地址:http://spark.apache.org/downloads.html
wget https://www.apache.org/dyn/closer.lua/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz
搭建Spark不需要Hadoop,如有hadoop集群,可下载相应的版本
下载后解压 -
Spark目录
bin包含用来和Spark交互的可执行文件,如Spark shell
core,Streaming,python,…包含主要组件的源代码
examples包含一些单机Spark job,你可以研究和运行这些例子 -
Spark的shell
spark的shell使你能够处理分布在集群上的数据
Spark把数据加载到节点的内存中,因此分布式处理可在秒级完成
快速使迭代式计算,实时查询、分析一般能够在shells中完成
Spark提供了Python shells 和 Scala shells -
Spark的Python shells
位置:bin/pyspark
./pyspark
运行 -
Spark的Scala shells
位置:bin/spark-shell
./spark-shell
运行 -
Scala shells的例子
创建helloSpark文件
vi helloSpark
内容
hello Spark
hello World
hello Spark !
wq保存
Scala shell执行
val lines = sc.textFile("../../helloSpark")
lines.count()
得到数量
vlines.first()
得到第一行 -
修改Spark日志级别
修改日志级别log4j.rootCategory = WARN,console
在conf
文件夹下有log4j.properties.template
cp 一份修改名称 log4j.properties
找到log4j.rootCategory = INFO,console进行修改