Spark 安装及使用

  • spark安装
    • tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C 指定目录
  • 官方例子运算pi:
    • bin/spark-submit --class org.apache.spark.examples.SparkPi --excutor-memory 1G --total-executor-cores 1 ./examples/jars/spark-examples_2.11-2.1.1.jar 100
  • 交互的Shell
    • bin/spark-shell
  • spark on yarn模式
    • 修改hadoop配置文件 vi yarn-site.xml,加入下面配置:
    • <!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true-->        
      <property>                
          <name>yarn.nodemanager.pmem-check-enabled</name> <value>false</value>        </property>        
      <!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true-->        
      <property> 
          <name>yarn.nodemanager.vmem-check-enabled</name>           
          <value>false</value>        
      </property>
    • 修改spark配置文件 vi spark-env.sh 加入下面配置:YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop hadoop的文件目录
    • 运行pi程序验证 :
      bin/spark-submit \
      --class org.apache.spark.examples.SparkPi \
      --master yarn \
      --deploy-mode client \
      ./examples/jars/spark-examples_2.11-2.1.1.jar \
      100
      
      

       

    • 监控地址:http://主机名:4040/
  • wordCount程序编写
    • 创建一个input文件夹,里边写一个txt文件,写上内容
    • 运行spark shell
    • 运行sc.textFile("input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
    • 注:
      • sc是上下文对象
      • textFile 读取本地文件,一行一行读
      • flatMap 压平操作,按照空格切分
      • map((_,1)) 对每一个元素操作,将单词聚合成元组
      • reduceByKey(_+_):按照key将值进行聚合,相加
      • collect:将数据收集到Driver进行展示
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值