Hadoop
文章平均质量分 62
能力工场小马哥
Love Coding, Keep Coding.
展开
-
大数据知识专栏 - MapReduce 的自定义分组求TopN
大数据专栏系列文章: 通过该文章, 教会如何在 MapReduce 中使用自定义分组技术求取TopN.原创 2021-01-28 23:52:37 · 278 阅读 · 0 评论 -
MapReduce练习案例4 -求共同好友
大数据专栏系列文章: 通过该文章, 学会使用MapReduce模型灵活编程.原创 2021-01-29 12:19:09 · 206 阅读 · 1 评论 -
MapReduce练习案例3 - 自定义分区
大数据知识专栏, 通过系列文章, 总结大数据知识 ; 本篇文章作用: 练习 MapReduce 的自定义分区.原创 2021-01-26 18:05:24 · 210 阅读 · 0 评论 -
MapReduce练习案例2 - 自定义排序
大数据知识专栏, 通过系列文章, 总结大数据知识; 本篇文章作用: 练习MapReduce的自定义排序.原创 2021-01-26 17:24:55 · 229 阅读 · 0 评论 -
MapReduce练习案例1-统计求和
大数据知识专栏, 通过系列文章, 总结大数据知识; 本篇文章作用: 练习MapReudce统计求和.原创 2021-01-26 11:45:15 · 1876 阅读 · 3 评论 -
大数据知识专栏 - Hadoop的资源管理 Yarn介绍
大数据专栏系列文章: 通过该文章, 了解Yarn的运行机制, 包括资源调度与应用管理.原创 2021-01-23 07:26:54 · 335 阅读 · 0 评论 -
大数据知识专栏 - MapReduce 的 Map端Join
大数据专栏系列文章: 通过该文章, 教会如何在 MapReduce 中使用 Map 端 Join.原创 2021-01-22 00:14:33 · 212 阅读 · 2 评论 -
大数据知识专栏 - MapReduce 的 Reduce端Join
大数据专栏系列文章: 通过该文章, 教会你什么是MapReduce的Reduce端Join.原创 2021-01-21 17:51:30 · 177 阅读 · 0 评论 -
大数据知识专栏 - MapReduce的Combiner实现shuffle过程调优
大数据专栏系列文章: 本节内容教会你你如何通过 MapReduce 的自定义Combiner技术, 实现对MapReduce的shuffle过程调优.原创 2021-01-20 22:47:26 · 284 阅读 · 0 评论 -
大数据知识专栏 - MapReduce 自定义排序技术
大数据专栏系列文章: 今天告诉你如何通过 MapReduce 的排序技术, 来实现对数据的任意顺序输出.原创 2021-01-20 19:01:51 · 279 阅读 · 0 评论 -
大数据知识专栏 - MapReduce 自定义计数器技术
大数据专栏系列文章: 今天告诉你如何通过玩转 MapReduce 计数器技术, 观察 MR 任务的执行原创 2021-01-20 11:59:07 · 176 阅读 · 0 评论 -
大数据知识专栏 - MapReduce自定义分区技术
作用实现数据分类统计原理分区处于MapReduce的Shuffle阶段, 目的是通过Partitioner的逻辑, 将相同分类的数据, 分发到同一个ReduceTask里面, (因为一个ReduceTask产生的数据都写到一个文件里面, 从而做到根据我们的逻辑分类, 将不同类别的数据写到不同文件), 做到分类Partitioner的逻辑: 很简单, 通过逻辑判断, 将不同数据打上分类标记, 这样同类的数据发送到同一个ReduceTask, 设置几个分区就设置启动几个ReduceTask, 从而产生几原创 2021-01-19 23:41:09 · 236 阅读 · 0 评论 -
大数据知识专栏 - MapReduce工作机制详解
1, Map Task工作机制详细步骤读取数据组件 InputFormat (默认 TextInputFormat) 会通过 getSplits 方法对输入目录中文件进行逻辑切片规划得到 block , 有多少个 block 就对应启动多少个 MapTask .将输入文件切分为 block 之后, 由 RecordReader 对象 (默认是LineRecordReader) 进行读取, 以 \n 作为分隔符, 读取一行数据, 返回 <key,value> . Key 表示每原创 2021-01-18 23:38:17 · 261 阅读 · 0 评论 -
Hadoop 专栏 - MapReduce 入门
MapReduce的基本思想先举一个简单的例子: 打个比方我们有三个人斗地主, 要数数牌够不够, 一种最简单的方法可以找一个人数数是不是有54张(传统单机计算); 还可以三个人各分一摞牌数各自的(Map阶段), 三个人的总数加起来汇总(Reduce阶段).所以MapReduce的思想即: "分治"+"汇总". 大数据量下, 一台机器处理不了的数据, 就用多台机器, 以分布式集群的形式来处理.关于Map与Reduce有很多文章将这两个词直译为映射和规约, 其实Map的思想就是各自负责一块实行分治, R原创 2021-01-14 23:08:13 · 338 阅读 · 0 评论 -
大数据基础 - Hadoop安装配置
Hadoop安装配置环境1, JDK8 --> 位置: /opt/jdk82, Hadoop2.10: --> 位置: /opt/bigdata/hadoop2103, CentOS 7虚拟机试验集群规划一,安装步骤1, 解压缩cd /opt/bigdatatar -zxvf hadoop-2.10.1.tar.gzmv ./hadoop-2.10.1 hadoop2102, 配置cd /opt/bigdata/hadoop210/etc/hadoop/[外链图原创 2021-01-10 23:34:17 · 165 阅读 · 0 评论 -
大数据本地试验环境搭建过程总结
目的: 创建三个Linux(使用Centos7)节点,模拟大数据集群,用于试验大数据生态圈框架需要的工具:VMwareworkstation,Centos7镜像,Xshell6 (网络上遍地是这些工具的安装教程, 这里不再详细赘述安装过程,下面只介绍配置)三个集群的配置准备:安装好1个Linux虚拟机,另外拷贝2个虚拟机文件夹,用vmware打开拷贝的两个虚拟机重命名,分别创建好三个节点:node1,node2,node3配置步骤:1,宿主机配置VMwareNe...原创 2021-01-07 00:29:02 · 475 阅读 · 0 评论 -
使用VMware10虚拟机安装Linux系统(能力工场)
作为IT从业人员,我们经常使用到Linux系统,但是实际开发过程我们通常在Windows平台操作,为了满足工作需要,这个时候我们通常在windows平台安装虚拟机,并在其上建立linux系统,这样就极大的便捷了我们的开发使用.本文简要的介绍虚拟机中如何配置安装Linux系统.使用的系统及程序 VMware10 RedHat Linux 6.0Wi原创 2015-01-29 23:08:59 · 1361 阅读 · 0 评论 -
编译hadoop2.6.0 --- 64位源代码(能力工场收集)
今天有朋友在群里找hadoop最新的2.6.0的源代码,其实这个源代码在hadoop的官方网站是有下载的(应该是32位的),还有一个src,不过给的是maven版本,需要自己在机器上编译一下(我的机器用的是64位的,所以要在上面进行开发,就要自己编译成64位的).如果你需要32位的,请直接去官方下吧:地址http://mirrors.cnnic.cn/apache/hadoop/commo原创 2015-01-29 20:43:29 · 659 阅读 · 0 评论 -
datanode启动后,在web50070端口发现不到datanode节点(能力工场)
直接上问题:这两天为了试验,安装了两套集群:(1)32位hadoop1集群(5个节点);(2)64位hadoop2集群(6个节点)两个集群中都遇到过这样的问题:在namenode正常启动hadoop集群后,查看datanode是正常的显示存在进程,但是在web界面中查看的时候,发现数据节点全部属于宕机,或者就是干脆直接没有datanode.还有种情况,原创 2014-11-17 14:14:14 · 8371 阅读 · 4 评论 -
Hadoop启动异常情况整理与解决方案01(能力工场--小马哥整理)
当我们搭建hadoop伪分布式或者集群环境之后,会进行一下验证,以检验我们的环境是否正确搭建完毕.很多初学hadoop的朋友往往会遇到一点小差错,造成hadoop集群不能正常启动.甚至曾经正确安装hadoop环境的朋友还是会出现以往没有见过的错误.例如这篇文章的作者---小马哥今天我在将电脑重新清理过后,开始搭建hadoop集群环境,防火墙,ip,主机名,ip与主机名绑定,ssh免原创 2013-09-05 15:04:13 · 902 阅读 · 0 评论 -
Hadoop伪分布式环境搭建(能力工场--小马哥整理)
hadoop的伪分布安装在linux系统打开终端,进行如下操作1.1关闭防火墙(1)执行命令service iptablesstatus查看防火墙开闭状态(如果开,接下步)执行命令service iptables stop关闭防火墙执行命令service iptables status验证是否关闭了(验证很关键,确保每一步的成功,否则后面"死"的很惨)(2)执行命令ch原创 2013-08-21 00:34:02 · 730 阅读 · 0 评论 -
Hadoop运行错误及解决方法--namenode不启动(能力工场--小马哥整理)
小马哥很懒,首先告诉大家的方法就是(一)使用命令:hadoop namenode -format重新格式化一个集群中的namenode,然后重新启动hadoop集群;(二)如果上述办法没有奏效将${HADOOP_HOME}/tmp文件删除,其中${HADOOP_HOME}代表的是hadoop的安装目录使用的命令:rm -rf /usr/local/hadoop/tmp原创 2013-08-20 01:15:34 · 879 阅读 · 0 评论 -
Hadoop的MapReduce框架中map和reduce的各自任务(能力工场--整理)
map处理任务原始文件得到的键值对>>>>>map的形参1.1 读取输入文件,把每一行解析成键值对(注意键值对key的值,行号),每一个键值对调用一次map函数1.2 对传入的键值对,覆盖map函数,实现自己的逻辑,处理键值对,输出新的键值对(逻辑程序员自己实现,注意上下文变量),每一行产生新的键值对;1.3 对键值对进行分区,根据键值对分区原创 2013-08-17 01:01:13 · 1102 阅读 · 0 评论 -
Hadoop运行的job作业的时候有具体十个步骤(能力工场--整理)
Hadoop运行的job作业的时候有具体十个步骤,详细过程如下:public class Demo {public void main(String[] args) throws Exception {// (1)作业,表示一次MapReduce作业,包含自定义的Mapper和ReducerJob job = new Job(new Configuration())原创 2013-08-17 00:16:35 · 718 阅读 · 0 评论 -
Hadoop总结:在java中使用FileSystem的api读写数据(能力工场)
//core包中fs.FileSystemString uri = "hdfs://192.168.1.240:9000/";//注意协议Configuration conf = new Configration();FileSystem fs = FileSystem.get(URI.create(uri),configuration);/原创 2013-08-16 01:04:17 · 770 阅读 · 0 评论 -
Hadoop中的fsimage和edits(能力工场--Hadoop)
在hadoopor论坛里看到这样的问题,这里做个回答。我有一个疑问,在namenode的内存中记录了fsimsage信息,但是内存中的fsimage元数据是在namemode启动时去合并本地的editlog和fsimage得到的,这样的话就存在以下问题:1. 如果namenode一直不重新启动的话那么如何保证内存中的fsimage是最新的呢2.在最新的hdfs版本中原创 2013-08-15 23:39:27 · 778 阅读 · 0 评论