#Spark# #大数据# #Hadoop# #大数据分析#
配置:配置主节点和子节点slaves
#指定哪些节点是worker
node2
node3
配置:环境变量sbin/spark-env.sh
#配置java环境变量
export JAVA_HOME=/export/servers/jdk
#指定master的地址
export SPARK_MASTER_HOST=node1
#指定master的端口
export SPARK_MASTER_PORT=7077
启动:bin/start-all.sh
WebUI:IP:8080
2 应用
2.1 执行jar应用:spark-submit:
交互式:spark-shell:scala函数式编程。
2.2 SparkSQL:spark-shell
集成到Spark中,统一的数据源(DataFrame)和标准的数据连接方式(JDBCODBC).
DSL:case class()、textfile.map。
collect展示数据,printschema查询表结构,select查询数据,show展示数据。
case class Emp(empno:Int,ename:String,job:String,mgr:Int,hiredate:String,sal:Int,comm:Int,depno:Int)
val lines=sc.textFile("/user/root/emp.csv").map(_.split(","))
line.collect
val allEmp=lines.map(x=>Emp(x(0).toInt,x(1),x(2),x(3).toInt,x(4),x(5).toInt,x(6).toInt,x(7).toInt))
SQL查询
val df=allEmp.toDF
df.select(“*”).show