spark总结3

spark总结3

cd 到hadoop中  

 然后格式化      进入到 bin下 找到 hdfs  然后看看里面有哈参数:

 ./hdfs namenode -format   格式化

 

然后启动 sbin/start-dfs.sh

hdfs的关系界面   

http://192.168.94.132:50070/

 

创建文本:

 

   创建个目录   hdfs dfs -mkdir /wc      创建个目录

 

上传3份

 

打开spark-shell

分配下资源哦 而且不要启动单机版的 要启动集群

把 wc下面的文件都读取了 哈哈哈

 

 如果要保存到hdfs中去呢?

 

 用spark shell  用scala 了

 

把hive 配置文件放到 spark 的conf 中 以后让 hive 直接跑在spark上面    爽了  更快

hive on spark   换了个执行引擎

 

------------------------------------------------------------------------------------------------------

1.首先启动hdfs

2.向hdfs上传一个文件到hdfs://node1.itcast.cn:9000/words.txt

3.在spark shell中用scala语言编写spark程序

sc.textFile("hdfs://node1.itcast.cn:9000/words.txt").flatMap(_.split(" "))        

.map((_,1)).reduceByKey(_+_).saveAsTextFile("hdfs://node1.itcast.cn:9000/out")

(先从hdfs中读数据 然后  读进来的数据flatMap 进行切分 压扁,  map把每个元素取出来进行相应操作,生成rdd(以前都是数组或集合的方法操作),reduceBykey rdd独有的, sortBy  )

 

4.使用hdfs命令查看结果

hdfs dfs -ls hdfs://node1.itcast.cn:9000/out/p*

 

posted @ 2017-09-16 11:01 toov5 阅读( ...) 评论( ...) 编辑 收藏
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值