Spark SQL
geekingLi
now or never
展开
-
【Spark报错】A write operation under a readonly mount point under a readonly mount point is not allowed
跑任务的时候发现报错:Caused by: alluxio.exception.status.PermissionDeniedException: A write operation on ... under a readonly mount point /region01 is not allowed at alluxio.exception.status.AlluxioStatusEx...原创 2020-03-31 20:06:38 · 269 阅读 · 0 评论 -
【Spark】遍历DataFrame中的每一行数据
最近遇到需求要从hive表中读取数据,并且要遍历每一行的数据,网上找了很多资料都没有解释的很清晰的,这边记录一下。一、主要思路1. 首先spark读取hive表,得到DataFrame。如果直接对spark的dataframe进行遍历的话,需要进行collect操作,这对性能消耗是非常大的,一般不建议直接对dataframe进行collect操作。2. 将DataFrame转为RD...原创 2020-01-28 14:11:29 · 24246 阅读 · 2 评论 -
【Spark SQL】两个DataFrame full join之后字段选择问题解决
最近工作上用到Spark SQL来处理数据。但是期间遇到两个表full join的问题,网上比较少关于spark SQL full join的资料,后面Google了一番找到了问题的核心。在这边做一个记录,方便他人也方便自己复盘。工作的数据涉及保密,这边用两个dataframe来代替。1. 先创建dataframe:val left = Seq((0, "zero"), (1, "o...原创 2019-12-14 16:23:19 · 4901 阅读 · 1 评论