大数据系列第六课:Spark集群环境搭建

本博客从基础知识开始,逐步深入Spark大数据处理技术,包括Spark Streaming、Spark SQL、Kafka、Spark内核原理、运行环境、故障解决、性能优化、流处理、机器学习等内容。通过王家林老师的讲解,注重动手实战,最终成为Spark高手。
摘要由CSDN通过智能技术生成

第一阶段:Spark streamingspark sqlkafkaspark内核原  理(必须有一个大型项目经验);

第二阶段:spark运行的各种环境,各种故障的解决,性能  优化(精通spark内核、运行原理);

第三阶段:流处理、机器学习为鳌头,需要首先掌握前两个  阶段的内容;

跟随王家林老师的零基础讲解,注重动手实战,成为spark高手,笑傲大数据之林!

第一部分:学习笔记

关于虚拟机与Linux

2 Hadoop集群的搭建和配置

3 Spark集群的搭建和配置

4,讨论与作业

(1)首先安装VMware Workstation12


(2)安装好Ubuntu14:Master和Worker


安装ssh(遇到如下问题)


1.一个彻底去掉这个提示的方法是,修改/etc/ssh/ssh_config文件(或$HOME/.ssh/config)中的配置,添加如下两行配置:

StrictHostKeyChecking no

UserKnownHostsFile /dev/null

修改/etc/ssh/sshd-config文件,将其中的PermitRootLogin no修改为yes,PubkeyAuthentication yes修改为no,AuthorizedKeysFile .ssh/authorized_keys前面加上#屏蔽掉,PasswordAuthentication no修改为yes就可以了。

2. apt-get install aptitude 

  aptitude install openssh-server

3.安装ssh无秘钥登录


(3)安装Java


Java -version后,显示Java版本

(4)安装Hadoop并运行Wordcount程序


(5)配置伪分布式

core-site.xml

Mapred-site.xml

Hdfa-site.xml


(7)安装Scala


(8)安装启动Spark



(9)测试Spark


(10)SparkPi

object SparkPi {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("Spark Pi")
    val spark = new SparkContext(conf)
    val slices = if (args.length > 0) args(0).toInt else 2
    val n = math.min(100000L * slices, Int.MaxValue).toInt // avoid overflow
    val count = spark.parallelize(1 until n, slices).map { i =>
      val x = random * 2 - 1
      val y = random * 2 - 1
      if (x*x + y*y < 1) 1 else 0
    }.reduce(_ + _)
    println("Pi is roughly " + 4.0 * count /












评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值