Hive-1.1.0的注意事项之transform的坑

最新推荐文章于 2023-11-11 12:02:54 发布

雨钓Moowei

最新推荐文章于 2023-11-11 12:02:54 发布

阅读量3.6k

点赞数 1

分类专栏： Hadoop 文章标签： hive Transform

本文链接：https://blog.csdn.net/u012802702/article/details/70199368

版权

本文讨论了Hive中使用Transform（Python）进行数据处理时遇到的资源管理问题，由于Python直接申请系统资源而非YARN资源，导致内存和CPU使用不可控，尤其是在大量Map任务并发时。解决方案包括改用UDF，限制并发Map数量，以及调整集群配置。建议避免频繁使用Transform。

摘要由CSDN通过智能技术生成

曾经为贪图方便使用Hive的tranform来实现了一些对数据的处理逻辑，但是之后发现各种坑啊，，，，，，如下：
通过大量的数据实验发现：在数据清洗过程中，如果使用的是TransForm而不是UDF的话，因为Python是直接向系统申请资源的，而不是像ResourceManager申请资源，故会导致启动的Python脚本对内存和CPU的使用不可控，尤其是当启动多个Map时，因为一个map将启动一个Python因此，当同时运行的map有几十个时（测试集群较小），同时将尝试启动相同个数的python（资源够用的话仍然会启动几十个），且此时Map占用的内存是不会释放掉的他在一直等待Python的结果，这将导致python可用的资源仅仅是原本分配给系统的很少的资源（注：在安装Hadoop时，对于单个节点，一般仅仅给系统留出很少的内存，其他的内存全部分给了集群。例如32G物理内存的节点给系统和dataNode+nodeManager的内存就4-8个G，同时CPU核数也不足节点的一半，剩余的内存和cpu核数全部划分给集群使用。需要注意的是，这里虽然说是划分给集群使用，仅仅是逻辑上的划分，即规定集群可以使用的最大的物理内存，超过该内存时MR可以认为是不会抢占分配给系统+DataNode+nodeManager的内存的，但是当集群中没有MR在执行，即没有map或者reduce在执行时，划分给集群的这部分资源是可以被系统使用的。而若有map和Reduce在执行时，运行map和reduce的JVM的资源不会因为系统进程需要使用而被