Spark学习记录:
hadoop文件系统HDFS浏览器查看:
Hadoop安装之后,查看虚拟文件系统目录和内容,这时用到浏览器
打开浏览器,在地址栏中输入:主机名:50070
在本次配置中:master:50070
出来页面之后,找到菜单Utilities-Browsethe file system。
在命令行下输入
hadoopfs -ls 查看HDFS下有没有文件夹,如果是第一次使用则为空
创建“aa”文件夹:hadoopfs -mkdir /aa
再次用hadoopfs -ls 就可以看到aa文件夹 (必须是在master主机上登录查看)
HDFS常用命令
1.列出HDFS下的文件
hadoopdfs -ls
2.列出HDFS文件下名为in的文档中文件
hadoopdfs -ls in
3.上传文件 hadoopdfs -put /上传文件路径/ /上传位置/
4.删除HDFS下名为out的文档hadoopdfs -rmr out
5.查看HDFS下文件内容hadoopdfs -cat /文件位置(名字)/
创建RDD
RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD
如何创建RDD:
1.scala>val a = sc.parallelize(1 to 9 , 3) 从普通数组创建RDD,里面包含了1-9这9个数字,分别在3个分区中,也可以读取文件来创建RDD
匹配函数:
a)map:对RDD中的每一个元素执行指定函数来产生一个新的RDD。任何原RDD中的元素在新的RDD中有且只有一个与之对应。也可以做一个映射
valb = a.map(x=>x * 2)
valb = a.map(x=>(x,x*2)) 就产生了2个元素的元组
b)mapPartitions(区别与map是针对与每一个分区)
c)mapValuesRDD中数据必须是key-Value形式,输入函数应用与Value,key保持不变
vala = sc.parallelize