Hadoop
文章平均质量分 90
hadoop基础知识和生产经验
运维仙人
目前在做大数据运维,会点python/java/go,不定时分享所见,所学,所踩的坑~
展开
-
hadoop必记知识点(3)
需要注意的是,Combiner的输出和Reduce的输出类型应该是一样的,而且Combiner的函数应该是可合并的,即多个Combiner的输出可以被合并成一个单一的输出。请求序列化:在客户端发起RPC请求时,请求中的参数需要被序列化。方法调用:在请求反序列化完成后,服务端的Hadoop RPC服务端代码会调用请求中指定的方法,并使用反序列化后的参数作为方法的参数。完全分布式模式:这是Hadoop的正式运行模式,所有的Hadoop组件在不同的节点上运行,每个节点都是集群中的一员,能够处理一些大型数据。原创 2024-01-29 20:23:38 · 935 阅读 · 0 评论 -
hadoop必记知识点(2)
在 Hadoop 集群进行计算时,可能会遇到多个瓶颈,但最主要的通常包括网络带宽、存储以及 CPU 处理能力。网络带宽:Hadoop 集群中的各个节点需要频繁地进行数据传输和通信,这就需要网络带宽足够大。如果网络带宽不足,节点之间的数据交换将会变得缓慢,从而影响整个集群的计算性能。存储:Hadoop 集群在进行计算时,需要大量的数据存储空间。如果存储资源不足,可能会导致数据丢失或者无法存储新的数据,进而影响到集群的计算能力。原创 2024-01-23 00:35:29 · 856 阅读 · 0 评论 -
hadoop必记知识点(1)
传统的单机数据库或服务器在面对海量数据时,处理速度慢,扩展性差,而Hadoop通过分布式架构,可以将海量数据分散存储在多个节点上,并行处理,从而大幅提高处理速度和扩展性。同时,Hadoop还支持各种数据处理和分析模式,包括批处理、流处理、图处理等,可以满足各种复杂的数据需求。9.Apache Flink 是 Hadoop 生态圈中的一个重要组件,它是一个开源的、用于处理大数据的流处理框架。Apache Flink 是 Hadoop 生态圈中的一个重要组件,它是一个开源的、用于处理大数据的流处理框架。原创 2024-01-21 22:51:11 · 975 阅读 · 0 评论