GraphX学习记录

最新推荐文章于 2023-03-13 19:00:09 发布

没有伞的奔跑的孩子

最新推荐文章于 2023-03-13 19:00:09 发布

阅读量736

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38063522/article/details/80751911

版权

本文是关于Spark GraphX的学习记录，介绍了HDFS的基本操作、RDD的创建与转换、以及GraphX的主要方法，如mapEdges、mapTriplets、groupEdges等，并展示了如何构建和操作图数据，包括子图构建、度计算、消息传递和聚合操作。此外，还提到了Pregel API、PageRank和TriangleCount等图算法的应用。

摘要由CSDN通过智能技术生成

Spark学习记录:

hadoop文件系统HDFS浏览器查看：

Hadoop安装之后，查看虚拟文件系统目录和内容，这时用到浏览器

打开浏览器，在地址栏中输入：主机名：50070

在本次配置中：master:50070

出来页面之后，找到菜单Utilities-Browsethe file system。

在命令行下输入

hadoopfs -ls 查看HDFS下有没有文件夹，如果是第一次使用则为空

创建“aa”文件夹：hadoopfs -mkdir /aa

再次用hadoopfs -ls 就可以看到aa文件夹（必须是在master主机上登录查看）

HDFS常用命令

1.列出HDFS下的文件

hadoopdfs -ls

2.列出HDFS文件下名为in的文档中文件

hadoopdfs -ls in

3.上传文件 hadoopdfs -put /上传文件路径/ /上传位置/

4.删除HDFS下名为out的文档hadoopdfs -rmr out

5.查看HDFS下文件内容hadoopdfs -cat /文件位置（名字）/

创建RDD

RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD

如何创建RDD：

1.scala>val a = sc.parallelize(1 to 9 , 3) 从普通数组创建RDD，里面包含了1-9这9个数字，分别在3个分区中，也可以读取文件来创建RDD

匹配函数：

a)map:对RDD中的每一个元素执行指定函数来产生一个新的RDD。任何原RDD中的元素在新的RDD中有且只有一个与之对应。也可以做一个映射

valb = a.map(x=>x * 2)

valb = a.map(x=>(x,x*2)) 就产生了2个元素的元组

b)mapPartitions(区别与map是针对与每一个分区)

c)mapValuesRDD中数据必须是key-Value形式，输入函数应用与Value，key保持不变

vala = sc.parallelize

最低0.47元/天解锁文章

没有伞的奔跑的孩子

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。