spark
文章平均质量分 55
1141202556
这个作者很懒,什么都没留下…
展开
-
spark 函数 UDF和UDAF
spark函数功能丰富,主要有内置函数、UDF、UDAF等(UDAF用于聚合agg,同时对多行操作返回单个聚合值)内置函数类型较多,见官网Built-in Functions - Spark 3.0.1 Documentation (apache.org)UDF函数import org.apache.spark.sql.*;import org.apache.spark.sql.api.java.UDF1;import org.apache.spark.sql.expressions.UserDe原创 2021-02-01 17:14:43 · 462 阅读 · 0 评论 -
spark java SQL2
文件读写Dataset<Row> usersDF = spark.read().load("examples/src/main/resources/users.parquet");usersDF.select("name", "favorite_color").write().save("namesAndFavColors.parquet");指定文件类型Dataset<Row> peopleDF = spark.read().format("json").load("原创 2021-02-01 17:10:41 · 87 阅读 · 0 评论 -
spark java SQL1
http://spark.apache.org/docs/latest/sql-getting-started.html建立sparkimport org.apache.spark.sql.SparkSession; SparkSession spark = SparkSession .builder() .appName("Java Spark SQL basic example") .config("spark.some.config.option", "some-value")原创 2021-02-01 17:04:48 · 90 阅读 · 0 评论 -
spark javaRDD操作
spark javaRDD操作建立并行数据集,主要是对数据集进行分区,所以说distinct操作会消耗比较大,并行数据集去重不易)SparkConf conf = new SparkConf().setAppName(appName).setMaster(master);JavaSparkContext sc = new JavaSparkContext(conf);List<Integer> data = Arrays.asList(1, 2, 3, 4, 5);JavaRDD<原创 2021-02-01 16:54:06 · 1503 阅读 · 0 评论