![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
JankoWilliam
年少如你,不曾奢望今夕,就像我们不曾奢望今生能够与你相遇,人生中一切的遇见或许都是命中注定。命中注定你心属耶稣,命中注定你信仰上帝。时光可以改变你阳光的面庞,却无法改变你虔诚的信仰,因为永远仰望天空,因为笃定的深情,我们才有幸与最好的你在2007年相遇。那也是你最好的样子那也是你永远的样子。我们爱你那时的样子,也爱那时的我们爱你的样子。
展开
-
大数据004——Hadoop
大数据004——Hadoop1. 前言Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。1.1 什么是大数据?大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。大数据包含通过不同设备和应用程序所产生的数据...原创 2018-12-22 21:05:18 · 519 阅读 · 0 评论 -
大数据010——Hive
1. Hive 概述Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reduc...原创 2019-01-14 22:16:41 · 2830 阅读 · 5 评论 -
Hadoop源码分析——JobClient
1. MapReduce作业处理过程概述当用户使用Hadoop的Mapreduce计算模型来进行处理问题时,用户只需要定义所需的Mapper和Reduce处理函数,还有可能包括的Combiner、Comparator、Partition等函数;之后,新建一个Job对象,并Job的运行环境进行相应的配置,最后调用Job的waitForCompletion或者submit方法提交作业。具体代码结构如...原创 2019-01-14 22:15:05 · 890 阅读 · 1 评论 -
MapReduce实例——好友推荐
1. 实例介绍好友推荐算法在实际的社交环境中应用较多,比如qq软件中的“你可能认识的好友”或者是Facebook中的好友推介。好友推荐功能简单的说是这样一个需求,预测某两个人是否认识,并推荐为好友,并且某两个非好友的用户,他们的共同好友越多,那么他们越可能认识。2. 数据流程3. 具体实现3.1 上传数据qq.txttom cat hadoop hellohello mr tom...原创 2019-01-14 22:13:49 · 4611 阅读 · 2 评论 -
MapReduce实例——wordcount(单词统计)
1. MR实例开发整体流程最简单的MapReduce应用程序至少包含 3 个部分:一个 Map 函数、一个 Reduce 函数和一个 main 函数。在运行一个mapreduce计算任务时候,任务过程被分为两个阶段:map阶段和reduce阶段,每个阶段都是用键值对(key/value)作为输入(input)和输出(output)。main 函数将作业控制和文件输入/输出结合起来。2. 环境...原创 2019-01-14 22:11:32 · 4430 阅读 · 1 评论 -
大数据007——HDFS2.0
1. Hadoop 2.01.1 Hadoop1.0于Hadoop2.0的区别1). 从整体框架来说 a. Hadoop1.0即第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中HDFS由一个NameNode和多个DateNode组成,MapReduce由一个JobTracker和多个TaskTracker组成。 b. Hadoop2.0即第二代...原创 2019-01-08 21:33:26 · 317 阅读 · 0 评论 -
大数据006——Zookeeper
1. 前言1.1 Zookeeper简介ZooKeeper是一个分布式的,开源的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。目前,大部分应用需要开发私有的一个主控、协调器或控制器的协调程序来管理物理分布的子进程(如资源、任务分配等)。而协调程序的反复编写浪费,且难以形成通用、伸缩性好的协调器,所以zookeeper应用而生。它是...原创 2019-01-08 21:30:29 · 363 阅读 · 0 评论 -
大数据005——HDFS1.0
HDFS即可作为Hadoop集群的一部分,也可以作为一个独立的分布式文件系统。上一小节实现了Hadoop安装,伪分布式搭建HDFS,这一小节使用完全分布式搭建Hadoop-HDFS集群。1. 环境准备1.1 JDK安装并配置环境变量echo $JAVA_HOME #查看JDK环境变量1.2 准备至少3台Linux虚拟机、通过VMware的克隆虚拟机功能;配置好网络JDK 时间 h...原创 2019-01-08 15:34:45 · 180 阅读 · 0 评论 -
Hadoop源码分析——MapReduce输入和输出
Hadoop中的MapReduce库支持集中不同的格式的输入数据。例如,文本模式的输入数据的每一行被视为一个key/value键值对。key是文件的偏移量,value是那一行的内容。另一种常见的格式是以key进行排序来存储key/value键值对的序列。每种输入类型的实现都必须能够把数据分割成数据片段,并能够由单独的Map任务来对数据片段进行后续处理。1. 输入格式-InputFormat当...原创 2019-01-18 16:56:42 · 711 阅读 · 0 评论 -
Hadoop源码分析——计算模型MapReduce
MapReduce 是一个计算模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于key/value pair的数据集合,输出中间的基于 key/value pair 的数据集合;然后在创建一个Reduce函数用来合并所有的具有相同中间 Key 值得中间Value值。1. Map 处理过程1.1 Mapper 概述Mapper函数最核心的作用就是对...原创 2019-01-21 22:49:10 · 415 阅读 · 0 评论