![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
端木胥
学生党一枚,正在学习大数据
展开
-
使用MultipleOutputs方法将mapreduce分组输出
使用MultipleOutputs方法将mapreduce分组输出MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型,MapReduce的计算过程被封装的很好,我们只用通过使用Map和Reduce函数,再定义输入输出就能得到我们想要的结果。不过一般Map Reduce的输出只包含一个可视化输出文件(如下图part-r-00000文件),那么我们如果需要将这一个输出文件分为多个...原创 2019-05-13 22:15:56 · 243 阅读 · 0 评论 -
Ambari集群搭建(HDP离线安装版)
安装环境部署使用版本Ubuntu:ubuntu-16.04.6-server-amd64Ambari:ambari-2.5.0.3-ubuntu16HDP:HDP-2.6.0.3-ubuntu16HDP-UTILS:HDP-UTILS-1.1.0.21-ubuntu16设置每台主机的host首先修改每一台主机的hostname输入命令:vim /etc/hostname命...原创 2019-06-04 16:11:29 · 2814 阅读 · 11 评论 -
Storm学习02:八种grouping分组策略
简述为拓扑中的每个 Bolt 的确定输入数据流是定义一个拓扑的重要环节。数据流分组定义了在 Bolt 的不同任务(tasks)中划分数据流的方式。在 Storm 中有八种内置的数据流分组方式,而且还可以通过 CustomStreamGrouping接口实现自定义的数据流分组模型。(所以总共可以算是九种分组方式)具体分组这八种分组分时分别为:Shuffle grouping:随机分组。...原创 2019-06-11 16:24:09 · 1341 阅读 · 0 评论 -
Storm学习01:Storm简介
什么是StormApache Storm是Apache与基金会的开源的分布式实时计算系统。与Hadoop的批处理相类似,Storm可以对大量的数据流进行可靠的实时处理,这一过程也称为“流式处理”,是分布式大数据处理的一个重要方向。Storm支持多种类型的应用,包括:实时分析、在线机器学习、连续计算、分布式 RPC( DRPC)、ETL等。Strom的一个重要特点就是“快速”的数据处理,有benc...原创 2019-06-11 16:24:01 · 176 阅读 · 0 评论