spark
iQian²
越努力,越幸运!
展开
-
RDD、dataframe、dataset区别(优缺点)-- Spark面试常问问题
RDD的优点: 1.相比于传统的MapReduce框架,Spark在RDD中内置很多函数操作,group,map,filter等,方便处理结构化或非结构化数据。 2.面向对象编程,直接存储的java对象,类型转化也安全 RDD的缺点: 1.由于它基本和hadoop一样万能的,因此没有针对特殊场景的优化,比如对于结构化数据处理相对于sql来比非常麻烦 ...原创 2020-02-24 16:46:53 · 3145 阅读 · 1 评论 -
SparkSQL 自定义UDF提取json中的字段
数据格式: 自定义UDF提取json中的字段 95002|{"name":"刘能","url":"www.runoob.com"}|女|19|IS 95003|{"name":"大军","url":"www.dajun.com"}|女|19|IS 95004|{"name":"小猪","url":"www.ss.com"}|女|19|IS 95005|{"name":"狐狸","ur...原创 2019-10-15 22:42:59 · 776 阅读 · 0 评论