两种方式:
如何将数据封装到RDD集合中,主要有两种方式:
- 并行化本地集合
- 引用加载外部存储系统(入hdfs、hive、hbase、kafka、RElasticsearch)
1、多种API
sc.parallelize(本地集合,分区数)
sc.makeRDD(本地集合,分区数)//底层使用parallelize
sc.textFilee(本地/hdfs文件/文件夹,分区数)//注意不要用它都大量小文件
sc.wholeTextFiles(本地/hdfs文件夹,分区数)//专门用来读取小文件的
2、获取RDD分区数
rdd.getNumPartitions//获取rdd的分区数,底层是partitions.length
rdd.partitions.length//获取rdd的分区数