![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
笔记
一只考考拉
大数据开发工程师
展开
-
udf函数(udf udaf udtf)
UDF的定义UDF(User-Defined Functions)即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求,这时就需要我们自定义函数了UDF的分类UDF:one to one,进来一个出去一个,row mapping。是row级别操作,如:upper、substr函数UDAF:many to one,进来多个出去一个,row mapping。是row级别操作,如sum/min。UDTF:one to many ,进来一个出去多个。如alteral view与explod原创 2020-11-03 09:55:05 · 6833 阅读 · 0 评论 -
map和mappartition的区别
1. map():每次处理一条数据。 2. mapPartition():每次处理一个分区的数据,这个分区的数据处理完后,原RDD中分区的数据才能释放,可能导致OOM。 3. 开发指导:当内存空间较大的时候建议使用mapPartition(),以提高处理效率。...原创 2020-11-03 09:48:55 · 1424 阅读 · 0 评论