大数据
文章平均质量分 87
诺冰1314
萌新的学习日记
展开
-
Hadoop压缩与优化
压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadood下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,I/O操作和网络数据传输要花大量的时间。还有,Shuffle与Merge过程同样也面临着巨大的I/O压力。鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。不过,尽管压缩与解压操作的CPU开销不高,其性能的提升和资源的节省并非没有代价。...原创 2022-08-15 19:26:58 · 632 阅读 · 1 评论 -
Hadoop面试题 MapReduce篇
什么是MapReduce?它是一种框架或编程模型,用于使用分布式编程在计算机集群上处理大型数据集。 什么是“Map”和“Reduce”?“Maps”和“Reduces”是在 HDFS 中解决查询的两个阶段。'Map'负责从输入位置读取数据,并根据输入类型生成一个键值对,即本地机器的中间输出。'Reducer'负责处理从输入位置接收到的中间输出映射器并生成最终输出。 Map映射器的四个基本参数是什么?映射器的四个基本参数是 LongWritable、text、text 和 IntWritable。前原创 2022-08-13 13:11:02 · 715 阅读 · 0 评论 -
MapReduce
mapReduce是一个分布式运算程序的编程框架,是用户开发基于hadoop的数据分析应用的核心框架。mapreduce的核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并运行在一个hadoop集群上。MapReduce的优缺点优点:易于编程良好的扩展性高容错性适合tb/pb级以上海量数据的离线处理缺点:不擅长实时计算不擅长流式计算不擅长DAG(有向无环图)计算。...原创 2022-08-13 13:09:39 · 4409 阅读 · 0 评论