Hadoop生态圈(大数据)
文章平均质量分 55
介绍Hadoop以及其中的各个组件、源码解读以、spark、storm等周边组件的使用,将全部生态圈融会贯通。
huwao
盖学贵善思,君但志之而不思之,终必无所成,何以谓之善学也?
展开
-
Spark有向无环图DAG图解与演示
目录:1、有向无环图2、代码结构3、代码学习步鄹及方法4、重点代码讲解5、代码展现6、运行结果———————————————————————————————————1、有向无环图在图论中,如果一个有向图无法从某个顶点出发经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。 因为有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树,但任何有向树...转载 2018-11-12 19:21:44 · 2464 阅读 · 0 评论 -
关于大数据的CAP理论
CAP理论在大数据领域知名度非常高,当前流行的大数据技术普遍把其当作理论基础,是NoSQL数据库的基石,很多架构师都会将其作为分布式系统设计的准则。CAP理论指出任何分布式系统在可用性、一致性、分区容忍性方面,不能兼得,最多只能得其二。但“三选二”的说法有其一定误导性,三特性之间的相互关系过于简单化了,比如业界一直存在一种认识,那就是传统关系型数据库设计选择了CA,NoSQL数据库设计选...转载 2018-11-06 13:28:42 · 1026 阅读 · 0 评论 -
Hadoop完全分布式安装Hive
推荐阅读《Hive编程指南》 编译安装 Hive如果需要直接安装 Hive,可以跳过编译步骤,从 Hive 的官网下载编译好的安装包,下载地址为http://hive.apache.org/downloads.html。Hive的环境配置需要MySQL的支持,所以首先需要安装MySQL,没有安装MySQL的先看上一篇:安装MySQLC.1 编译HiveC.1.1 下载 H...原创 2018-10-25 08:55:35 · 5345 阅读 · 7 评论 -
Linux下安装配置MySQL
安装 MySql 数据库B.1 卸载旧的 MaySql 程序1.查找以前是否安装有 mysql使用命令查看是否已经安装过 mysql:#rpm -qa | grep -i mysql如果没有结果,则可以进行 mysql 数据库安装。2.如果有,则先停止 mysql 服务并删除之前安装的 mysql如果之前安装过 MySql,则先停止 mysql 服务,然后删除之前...原创 2018-10-25 08:55:20 · 677 阅读 · 0 评论 -
Hadoop完全分布式安装zookeeper
D.1安装 ZooKeeperD.1.1 下载 ZooKeeperZooKeeper 是 Apache 基金会的一个开源、分布式应用程序协调服务,是 Google 的 Chubby一个开源的实现。它是一个为分布式应用提供一致性服务的软件,提供的功能包括配置维护、域名服务、分布式同步、组服务等。它的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。Z...原创 2018-10-24 09:33:14 · 2098 阅读 · 0 评论 -
Hadoop完全分布式用MapReduce实现自定义排序、分区和分组
经过前面一段时间的学习,简单的单词统计已经不能实现更多的需求,就连自带的一些函数方法等也是跟不上节奏了;加上前面一篇MapReduce的底层执行步骤的了解,今天学习自定义的排序、分组、分区相对也特别容易。认为不好理解,先参考一下前面的一篇:https://blog.csdn.net/hu_belif/article/details/83007178自定义排序自定义的排序有许多许...原创 2018-10-24 08:59:05 · 1048 阅读 · 0 评论 -
Hadoop的shuffle学习
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,...转载 2018-10-23 10:35:17 · 224 阅读 · 0 评论 -
Hadoop的combiner学习与自定义combiner
Combiner的概念Combiner号称本地的Reduce,Reduce的输入是Combiner的最终输出。在MapReduce中,当map生成的数据过大时,带宽就成了瓶颈,怎样精简压缩传给Reduce的数据,有不影响最终的结果呢。有一种方法就是使用Combiner,Combiner号称本地的Reduce。Combiner是用reducer来定义的,多数的情况下Combiner和re...原创 2018-10-22 20:51:04 · 565 阅读 · 0 评论 -
MapReduce多文件处理实战应用
前面学习了简单的经典的Wordcount算法,今天我们来学习一个处理文件内容、整理数据集的算法(关系的自然连接); 用MapReduce实现关系的自然连接 假设有关系R(A,B)和S(B,C),对二者进行自然连接操作 使用Map过程,把来自R的每个元组<a,b>转换成一个键值对<b, <R,a>>,其中的键就是属性B的值。把关系...原创 2018-10-10 14:21:45 · 626 阅读 · 0 评论 -
MapReduce学习简单实现词频统计
今天自己写了一下简单的单词统计的MapReduce算法程序,在这里分享一下,为还在为此迷茫的伙伴指引方向同时也希望路过的大佬帮我指点一下不足之处,感谢。单词统计的流程:在Hadoop学习过程中,单词统计作为一个最经典的案例,非常简单实用,是每一个入门菜鸟必须要掌握的一个例子,可以通过这个简单的小案例了解Hadoop的基本运行原理和MapReduce程序的开发流程。下面开搞,...原创 2018-09-10 22:04:34 · 4573 阅读 · 1 评论 -
Hadoop生态圈总结——大数据
Hadoop的发展史: 生态圈图解: MapReduce:分布式数据处理模型和执行环境、运行于大型商用机集群。 ZooKeeper:一个分布式、高可用的协调服务。ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用。 HDFS: 分布式文件系统,运行于大型商用机集群。 Hadoop体系最底层的一个模块。为Hadoop各子项目提供各种工具,如:配置...原创 2018-10-15 14:52:57 · 4135 阅读 · 0 评论 -
重写Linux网卡设置静态IP
序:最近因为要搭集群的原因,需要几台linux同时运行,并且使用客户端工具SSH Client进行外部操作,所以就需要我们来重写网卡并设置静态Ip了。首先呢,要保证我们的虚拟机的网卡设置为NAT或桥接网络模式,本人使用的是VMware,如果您是VirtualBox的话使用NAT或桥接网卡网络模式都可以。 下面开始打开我们的terminal输入命令,双开哦。一、第一个term...原创 2018-09-02 20:57:29 · 2326 阅读 · 0 评论 -
Hadoop不完全分布(单机、伪分布)模式搭建
一,配置一台普通的虚拟机要求:安装Java的jdk1.7+二、解压安装Hadoop之前有做安装笔记:https://blog.csdn.net/hu_belif/article/details/82391003三、配置Java与Hadoop的环境变量键入命令:vim /etc/profile按i进入插入状态 ,开始使用vim编辑器编辑:在末尾插入下列这段代码:...原创 2018-09-05 21:12:31 · 512 阅读 · 0 评论 -
Hadoop完全分布式的搭建
导语:继上一篇文章之后,在这里继续做Linux与Hadoop学习笔记。在Linux配置静态IP搞定之后,我们就可以搞一个完全分布的集群来检测一下最近的学习情况啦。Linux常用指令学习:https://blog.csdn.net/hu_belif/article/details/82389488首先提供以下资源地址:Hadoop的官网:http://hadoop.apac...原创 2018-09-05 14:35:06 · 867 阅读 · 0 评论 -
Linux下Hadoop的安装与配置
序:今天在这里给大家分享一下如何在Linux下安装与配置Hadoop。开始进行大数据部分的学习,为了存档,写下现在进行以下的步骤:需要用到的主要版本:虚拟机:Vmware Workstation pro 14Linux系统:CentOS6.5 64bitjdk版本:jdk1.8.0_111hadoop版本:hadoop-2.8.4所有的包均可以在官网下载H...翻译 2018-09-04 22:13:03 · 2671 阅读 · 4 评论