弹性分布式数据集(RDD)是一组不可变的JVM对象的分布集,可以用于执行高速运算,它是Apache Spark的核心。
在pyspark中获取和处理RDD数据集的方法如下:
1. 首先是导入库和环境配置(本测试在linux的pycharm上完成)
importosfrom pyspark importSparkContext, SparkConffrom pyspark.sql.session importSparkSession
os.environ["PYSPARK_PYTHON"]="/usr/bin/python3"conf= SparkConf().setAppName('test_rdd')
sc= SparkContext('local', 'test', conf=conf)
spark= SparkSession(sc)
2. 然后,提供hdfs分区数据的路径或者分区表名
txt_File = r"hdfs://host:port/apps/hive/warehouse/数据库名.db/表名/分区名/part-m-00029.deflate" #part-m-00029.deflate#txt_File = r"hdfs://host:port/apps/hive/warehouse/数据库名.db/表名" # hive table,即也可直接根据表名读取
3. sc.textFile进行读取,得到RDD格式数据,参数中还可设置数据被划分的分区数
txt_ = sc.textFile(txt_File)
4. 基本操作:
type(txt_):显示数据类型,