读取文件转为带有Schema的DataFrame

最新推荐文章于 2021-04-09 21:10:03 发布

千里草竹

最新推荐文章于 2021-04-09 21:10:03 发布

阅读量439

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/u012848709/article/details/84559025

版权

Spark 专栏收录该内容

36 篇文章 3 订阅

订阅专栏

楔子

spark读取文件转为DataSet


/**
 * 读取文件转为Dataset
 * 
 * @param sparkSession
 * @param filePath
 *            文件路径
 * @param schemaString
 *            schema 字符串(以逗号为分隔符)
 * @param fileSplit
 *            文件中的分隔符
 * @return
 */
public static Dataset<Row> txtfileToDateSet(SparkSession sparkSession, String filePath, String schemaString, String fileSplit) {
	List<StructField> fields = new ArrayList<StructField>(16);
	for (String fieldName : schemaString.split(",")) {
		fields.add(DataTypes.createStructField(fieldName, DataTypes.StringType, true));
	}
	StructType schema = DataTypes.createStructType(fields);
	JavaRDD<Row> rowRDD = sparkSession.sparkContext().textFile(filePath, 1).toJavaRDD().map(new Function<String, Row>() {
		@Override
		public Row call(String record) throws Exception {
			return RowFactory.create(record.split(fileSplit));
		}
	});

	return sparkSession.createDataFrame(rowRDD, schema);
}

/**
 * 读取文件转为Dataset lambda版本
 * 
 * @param sparkSession
 * @param filePath
 *            文件路径
 * @param schemaString
 *            schema 字符串(以逗号为分隔符)
 * @param fileSplit
 *            文件中的分隔符
 * @return
 */
public static Dataset<Row> txtfileToDateSet2(SparkSession sparkSession, String filePath, String schemaString, String fileSplit) {
	List<StructField> fields = new ArrayList<StructField>(16);
	for (String fieldName : schemaString.split(",")) {
		fields.add(DataTypes.createStructField(fieldName, DataTypes.StringType, true));
	}
	StructType schema = DataTypes.createStructType(fields);
	JavaRDD<Row> rowRDD = sparkSession.sparkContext().textFile(filePath, 1).toJavaRDD().map(t -> t.split("fileSplit")).map(t -> RowFactory.create(t));
	return sparkSession.createDataFrame(rowRDD, schema);
}