学习完厦门大学数据库spark课程总结
RDD是面对对象的文件集合,类似于dataframe的一行数据,
创建RDD有很多种模式
lines = sc.textFile(“file:///usr/local/spark/…文件目录地址”) 注意sc是sparkContext缩写可能需要import一下,这是从本地文件创建RDD,file:后面是三个///
lines = sc.textFile(“hdfs://localhost:90000/usr/文件目录地址”)从HDFS中创建RDD,也可以不写前面的目录,直接写文件名称也行
llines = sc.parallelize(array) 通过并行数组创建RDD,相当于把(1,2,3)变成了RDD(1)(2)(3)
RDD的操作包括了转换操作和行动操作,RDD本身是无法修改的,每一次转换操作都会形成新的RDD,但RDD的转换操作是依赖惰性机制的,就是说转换过程并不是真的转换了,只是记录了转换的轨迹,等到行动操作发生时,才真的开始转换
RDD转换操作之filter
linesWithSpark = lines.filter(lambda line: “Spark” in line)
RDD转换操作之map
words = lines.map(lambda line:line.split(" “)) 用空格切分,与python一致,”screw you“ 变成 Array(”screw“, ”you“)
RDD转换操作之flatmap
words = lines.flatmap(lambda
RDD操作创建RDD,转换操作
最新推荐文章于 2022-09-19 10:42:28 发布