spark总结3

最新推荐文章于 2023-11-21 00:17:14 发布

Art&Code

最新推荐文章于 2023-11-21 00:17:14 发布

阅读量113

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/art_code/article/details/90509442

版权

spark总结3

cd 到hadoop中

然后格式化进入到 bin下找到 hdfs 然后看看里面有哈参数：

./hdfs namenode -format 格式化

然后启动 sbin/start-dfs.sh

hdfs的关系界面

http://192.168.94.132:50070/

创建文本：

创建个目录 hdfs dfs -mkdir /wc 创建个目录

上传3份

打开spark-shell

分配下资源哦而且不要启动单机版的要启动集群

把 wc下面的文件都读取了哈哈哈

如果要保存到hdfs中去呢？

用spark shell 用scala 了

把hive 配置文件放到 spark 的conf 中以后让 hive 直接跑在spark上面爽了更快

hive on spark 换了个执行引擎

------------------------------------------------------------------------------------------------------

1.首先启动hdfs

2.向hdfs上传一个文件到hdfs://node1.itcast.cn:9000/words.txt

3.在spark shell中用scala语言编写spark程序

sc.textFile("hdfs://node1.itcast.cn:9000/words.txt").flatMap(_.split(" "))

.map((_,1)).reduceByKey(_+_).saveAsTextFile("hdfs://node1.itcast.cn:9000/out")

（先从hdfs中读数据然后读进来的数据flatMap 进行切分压扁， map把每个元素取出来进行相应操作，生成rdd（以前都是数组或集合的方法操作），reduceBykey rdd独有的， sortBy ）

4.使用hdfs命令查看结果

hdfs dfs -ls hdfs://node1.itcast.cn:9000/out/p*

posted @ 2017-09-16 11:01 toov5 阅读( ...) 评论( ...) 编辑收藏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark总结3

spark总结3 cd 到hadoop中然后格式化进入到 bin下找到 hdfs 然后看看里面有哈参数：./hdfs namenode -format 格式化然后启动 sbin/start-dfs.shhdfs的关系界面 http://192.168.94.132:50070/创建...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。