hadoop
文章平均质量分 77
hadoop
Allen019
技术博客
展开
-
Hadoop(十一) MapReduce Partitioner分区
mapreduce Partitioner原创 2024-08-18 08:42:07 · 276 阅读 · 0 评论 -
Hadoop(十)MapReduce 序列化
mapreduce 序列化原创 2024-08-17 21:26:09 · 340 阅读 · 0 评论 -
Hadoop(九)MapReduce 案例2
mapreduce java 案例原创 2024-08-17 21:28:57 · 457 阅读 · 0 评论 -
Hadoop(八)MapReduce 案例1
map reduce初始案例原创 2024-08-17 21:27:45 · 213 阅读 · 0 评论 -
Hadoop(七) MapReduce介绍
当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。在Reduce阶段,用户需要考虑对数据进行最后的规约。高容错性:MapReduce设计就是为了程序能够在廉价的机器上运行,当一台机器出现故障时他会将计算任务移交给其他的节点来完成,这个过程不需要人工参与由hadoop内部来完成。核心功能是用户编写的业务逻辑代码和系统自带的组件组合在一起,构成一个分布式运算程序,并发运行在Hadoop集群上。原创 2024-08-18 08:46:48 · 23 阅读 · 0 评论 -
Hadoop(六) Yarn介绍
Hadoop三大核心组件:分布式文件系统HDFS、分布式计算框架MapReduce,分布式集群资源调度框架Yarn。Yarn并不是在Hadoop初期就有的,是在Hadoop升级发展才诞生的,典型的Master-Slave架构。YARN(Yet Another Resource Negotiator - 迄今另一个资源调度器) - 负责任务管理和资源调度YARN是Hadoop2.X开始出现的,也是Hadoop2.X中最重要的特性之一。原创 2024-08-17 09:12:53 · 585 阅读 · 0 评论 -
Hadoop 简介(五)
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力,解决海量数据的存储及海量数据的分析计算问题。广义上的Hadoop是指Hadoop的整个技术生态圈;狭义上的Hadoop指的是其核心三大组件,包括HDFS、YARN及MapReduce.原创 2024-08-16 10:08:26 · 759 阅读 · 0 评论 -
大数据介绍(四)
随着网络的发展,价值密度越来越低,但是不意味着获取到的数据越来越少,恰恰相反,获取到的数据是在变多的。用户在手机上的每一次滑动和点击,都会被各式各样的APP上传并存储,以及在微博,微信,知乎,抖音等各种社交或者UGC类APP上创作的文本,图片和视频,形成海量的数据。Valence:数据的连通性。Veracity:真实性,数据的质量,即数据的准确性和可信赖度,信息的发展,信息来源广,但是真实度就不太行了。支付宝拥有大量的消费类数据,能分析出你所在的这一块区域用户的消费习惯是什么,比如那种食品的多,就开个店。原创 2024-08-16 08:26:55 · 1108 阅读 · 0 评论 -
hadoop安装(三)
hadoop安装原创 2024-07-29 17:52:24 · 231 阅读 · 0 评论 -
centos jdk安装(二)
jdk8安装原创 2024-07-31 16:14:12 · 125 阅读 · 0 评论 -
Vmware+centos 安装重点网络配置(一)
vmware centos 网络配置原创 2024-07-31 16:07:06 · 129 阅读 · 0 评论