应该在什么时候使用Hadoop

最新推荐文章于 2024-06-01 19:13:05 发布

669生活

最新推荐文章于 2024-06-01 19:13:05 发布

阅读量862

点赞数

分类专栏：大数据编程语言人工智能文章标签：大数据人工智能编程语言程序员

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Spark168/article/details/90239286

版权

有人问我，“你在大数据和Hadoop方面有多少经验?”我告诉他们，我一直在使用Hadoop，但是我处理的数据集很少有大于几个TB的。

他们又问我，“你能使用Hadoop做简单的分组和统计吗?”我说当然可以，我只是告诉他们我需要看一些文件格式的例子。

他们递给我一个包含600MB数据的闪盘，看起来这些数据并非样本数据，由于一些我不能理解的原因，当我的解决方案涉及到pandas.read_csv文件，而不是Hadoop，他们很不愉快。

Hadoop实际上是有很多局限的。Hadoop允许你运行一个通用的计算，下面我用伪码进行说明：

大数据

目标：计算图书馆书籍的数量

Map：你统计奇数书架上书的数量，我统计偶数书架上书的数量。(人越多，统计越快)

Reduce：把我们单独统计后的数据加在一起。

我们所做的只有两个：F(k,v)和G(k,v)，除开在中间步骤中的性能优化，一切都是固定的。

它会迫使你在Map中进行所有的计算，分组和统计，执行运算的方式像是穿上了紧身衣，其实很多计算更适合选用其它模型。穿上紧身衣的唯一原因是这可能会扩展到非常大的数据集上，而大多数情况下，你的数据量可能会小几个数量级。

但是由于“大数据”和“Hadoop”这两个热门词，即使很多人实际上不需要Hadoop，他们也愿意穿上“紧身衣”。

一、如果我的数据量是几百兆，Excel可能没法加载它

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
应该在什么时候使用Hadoop

有人问我，“你在大数据和Hadoop方面有多少经验?”我告诉他们，我一直在使用Hadoop，但是我处理的数据集很少有大于几个TB的。他们又问我，“你能使用Hadoop做简单的分组和统计吗?”我说当然可以，我只是告诉他们我需要看一些文件格式的例子。他们递给我一个包含600MB数据的闪盘，看起来这些数据并非样本数据，由于一些我不能理解的原因，当我的解决方案涉及到pandas.read_csv文...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。