官方文档:
http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions$
concat_ws: 用指定的字符连接字符串
例如:
连接字符串:
concat_ws("_", field1, field2),输出结果将会是:“field1_field2”。
数组元素连接:
concat_ws("_", [a,b,c]),输出结果将会是:"a_b_c"。
collect_set: 把聚合的数据组合成一个数组,一般搭配group by 使用。
例如有下表T_course;
id | name | course |
1 | zhang san | Chinese |
2 | zhang san | Math |
3 | zhang san | English |
spark.sql("select name, collect_set(course) as course_set fro