spark RDD 示例

最新推荐文章于 2024-06-01 09:04:37 发布

ocean42234111

最新推荐文章于 2024-06-01 09:04:37 发布

阅读量268

点赞数

分类专栏：大数据 hadoop 文章标签： spark RDD

本文链接：https://blog.csdn.net/ocean42234111/article/details/80404938

版权

大数据同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

hadoop

3 篇文章 0 订阅

订阅专栏

spark Context sc

spark RDD 存储单元

--示例1
hadoop fs -put /home/training/training_materials/data/frostroad.txt /loudacre/frostroad.txt
val myrdd=sc.textFile("/loudacre/frostroad.txt")
myrdd.count()
myrdd.collect()

--示例2
hadoop dfs -put /home/training/training_materials/data/weblogs/ /loudacre/

val logfiles="/loudacre/weblogs/*"

val logsRDD=sc.textFile(logfiles)
logsRDD.count()
logsRDD.take(1).foreach(println)

val jpglogsRDD=logsRDD.filter(line => line.contains(".jpg"))

jpglogsRDD.take(10).foreach(println)
jpglogsRDD.count()
logsRDD.map(line =>line.length).take(5)

--示例3
hadoop fs -put /home/training/training_materials/data/purplecow.txt /loudacre/purplecow.txt
val mydata=sc.textFile("/loudacre/purplecow.txt")

for(line<-mydata.take(2))
println(line)

mydata.take(2).foreach(println)