为什么如此难用？Hadoop的12个技术痛点

最新推荐文章于 2024-03-28 13:22:07 发布

aa541505

最新推荐文章于 2024-03-28 13:22:07 发布

阅读量574

点赞数 1

分类专栏：大数据 IT资讯互联网科技人工智能文章标签：大数据程序员编程语言

本文链接：https://blog.csdn.net/aa541505/article/details/90215056

版权

本文列举了Hadoop在使用过程中遇到的12个技术痛点，包括Pig与Hive的互操作性问题、共享库存储、Oozie调试困难、错误信息不明确、Kerberos认证复杂性、Knox数据保护应用不足、Hive外部表管理缺陷、Namenode故障处理、文档不准确、Ambari覆盖范围局限、知识库管理问题以及常见的Null指针异常。这些问题反映出Hadoop在实际应用中仍存在的挑战，期待开发者能改进。

摘要由CSDN通过智能技术生成

Hadoop是一个很神奇的创造，但它发展过快而表现出一些瑕疵。我爱大象，大象也爱我。不过这世上没什么是完美的，有的时候，即使是再好的朋友间也会起冲突。就像我和Hadoop之间的存在斗争一样。下面是我列举的12个痛点。

1、Pig vs. Hive

你在 Pig 里用不了 Hive UDFS。在 Pig 中你必须用 HCatalog 来访问 Hive 表。你在 Hive 里用不了Pig UDFS。在 Hive 中无论是多么小的额外功能，我都不会感觉像写一个 Pig 脚本或者“啊，如果是在 Hive 里我可以轻易地完成”，尤其是当我写 Pig 脚本的时候，当我在写其中之一的时候，我经常想，“要是能跳过这堵墙就好了！”。

2、被迫存储我所有共享库到 HDFS

这是 Hadoop 的复发机制。如果你保存你的 Pig 脚本到 HDFS 上，那么它会自动假设所有的 JAR 文件都会在你那里一样。这种机制在 Oozie 和别的工具上也出现了。这通常无关紧要，但有时，必须存储一个组织的共享库版本就很痛苦了。还有，大多数时候，你安装在不同客户端的相同 JAR，那么为什么要保存两次？这在 Pig 中被修复了。别的地方呢？

3、Oozie

Debug 并不好玩，所以文档里有很多老式的例子。当你遇到错误，可能并不是你做错了什么。可能是配置打印错误或者格式验证错误，统称“协议错误”。很大程度上，Oozie 就像 Ant 或 Maven，除了分布式的，不需要工具、有点易错。

4、错误信息

你在开