Hadoop
Hadoop
说文科技
做有态度的研究。
展开
-
Hadoop源码详解之MultipleInputs类
Hadoop源码详解之MultipleInputs类在讲解MultipleInputs之前,我们应该想想,为什么会有这个类的存在?数据的输入源并不一定总是同一种类型。例如,有的是.txt文件,而有的则需要从DB中读取。这时候一个Mapper类就无法解决问题了。数据的输入源并不一定总是同一种格式。例如,尽管可能都是.txt文件,但有的数据是两列,有的是三列。在复杂的情况下,就可能导致需要使用...原创 2019-01-09 21:33:53 · 682 阅读 · 0 评论 -
Hadoop 源码详解之RecordReader接口
Hadoop 源码详解之RecordReader接口1. 类释义RecordReader reads <key, value> pairs from an InputSplit.RecordReader 从InputSplit中读取<key,value> pairs 。RecordReader, typically, converts the byte-ori...原创 2018-12-22 10:34:51 · 811 阅读 · 0 评论 -
Hadoop源码详解之Job 类
Hadoop源码详解之Job类1. 源码包:org.apache.hadoop.mapreduce继承的接口有:AutoCloseable,JobContext,org.apache.hadoop.mapreduce.MRJobConfigThe job submitter’s view of the Job.It allows the user to configure the ...原创 2018-12-22 09:56:26 · 2318 阅读 · 0 评论 -
Hadoop 常用shell命令
Hadoop 常用shell命令1. 文件操作查看文件hadoop fs -ls /[root@server4 logs]# hadoop fs -ls /Found 2 itemsdrwxr-xr-x - root supergroup 0 2018-12-18 11:25 /hbasedrwxr-xr-x - root supergroup ...原创 2018-12-22 08:29:01 · 609 阅读 · 0 评论 -
Hadoop Tool接口详解
Hadoop Tool接口详解1. 详解1.1 简介public interface Toolextends Configurable继承自Configurable的接口。1.2 释义A tool interface that supports handling of generic command-line options.Tool, is the standard for ...原创 2018-12-21 19:12:31 · 1641 阅读 · 0 评论 -
OutputFormat 源码详解
OutputFormat源码详解1. 源码package org.apache.hadoop.mapreduce;import java.io.IOException;import org.apache.hadoop.classification.InterfaceAudience;import org.apache.hadoop.classification.InterfaceSt...原创 2018-12-20 15:36:32 · 692 阅读 · 0 评论 -
RecordWriter 类详解
RecordWriter 类详解【updating…】1. 源码package org.apache.hadoop.mapreduce;import java.io.IOException;import org.apache.hadoop.classification.InterfaceAudience;import org.apache.hadoop.classification....原创 2018-12-20 15:35:30 · 1321 阅读 · 0 评论 -
关闭Hadoop集群报错
关闭Hadoop集群报错1. 报错如下:[root@server4 sbin]# ./stop-yarn.sh stopping yarn daemonsno resourcemanager to stopserver5: no nodemanager to stopserver6: no nodemanager to stopserver4: no nodemanager to s...原创 2018-10-23 17:20:34 · 1415 阅读 · 0 评论 -
大数据项目实战二之电信大数据项目
大数据项目实战之电信大数据项目生产日志-&amp;amp;amp;amp;gt;kafka采集-&amp;amp;amp;amp;gt;kafka API的控制台展示 -&amp;amp;amp;amp;gt;HBASE(创建命名空间,创建表)-&amp;amp;amp;amp;gt;TableMapper -&amp;amp;amp;amp;gt;Reducer -&amp;amp;amp;amp;原创 2018-07-20 15:26:15 · 22772 阅读 · 30 评论 -
大数据入门知识
大数据入门知识1KB(Kilobyte 千字节) = 2^10 B = 1024 B;1MB(Megabyte 兆字节) = 2^10 KB = 1024 KB = 2^20 B;1GB(Gigabyte 吉字节) = 2^10 MB = 1024 MB = 2^30 B;1TB(Trillionbyte 太字节) = 2^10 GB = 1024 GB = 2^40 B;1PB(...原创 2018-07-20 14:56:49 · 341 阅读 · 0 评论 -
cdh5.14.2安装spark 2.3.0parcel包
cdh5.14.2安装spark 2.3.0parcel包CDH官网介绍地址:https://www.cloudera.com/documentation/spark2/latest/topics/spark2_packaging.html下载parcel包 http://archive.cloudera.com/spark2/parcels/2.3.0.cloudera3/SPARK...原创 2018-07-20 14:02:09 · 2062 阅读 · 2 评论 -
Hadoop集群参数详解
Hadoop集群参数详解yarn.resourcemanager.hostname 0.0.0.0 The hostname of the RM.原创 2018-07-13 17:19:52 · 693 阅读 · 0 评论 -
Hadoop 源码详解之FileInputFormat类
Hadoop 源码详解之FileInputFormat类【updating…】1. 类释义A base class for file-based InputFormats.针对基于文件的 InputFormats 一个基类FileInputFormat is the base class for all file-based InputFormats. This provides a...原创 2018-12-22 11:06:11 · 781 阅读 · 0 评论 -
Hadoop源码详解之FileOutputFormat 类
Hadoop 源码详解之FileOutputFormat 类1. 类释义A base class for OutputFormats that read from FileSystems.一个类从FileSystems读取 用于OutputFormats 【实在翻译不好 _ 】2. 类源码3. 方法详解3.1 setOutputPath()Set the Path of the...原创 2018-12-22 14:10:41 · 959 阅读 · 0 评论 -
Hadoop源码详解之Mapper类
Hadoop源码详解之Mapper类1. 类释义Maps input key/value pairs to a set of intermediate key/value pairs.将输入的键值对应成一系列的中间键值对Maps are the individual tasks which transform input records into a intermediate rec...原创 2018-12-22 15:11:33 · 916 阅读 · 0 评论 -
Hadoop项目实战之多类型输入
Hadoop项目实战之多类型输入1.背景在日常的需求中,可能遇到的问题是:如果MapReduce job的任务需要的数据源在不同的文件中怎么办?例如:需要从文本文件user.txt中得到一批数据;从另外一个文本文件transactions.txt(可以不是文本,也可以是数据库等数据源)中得到另一批数据。分别将这两批数据作为mapper的数据源,那么该怎么实现呢?Hadoop也是一个成熟的项目...原创 2019-01-09 21:18:07 · 533 阅读 · 0 评论 -
Hadoop中distcp命令
Hadoop中distcp命令1.什么是distcp命令?Hadoop comes with a useful program called distcp for copying data to and from Hadoop filesystems in parallel.2.distcp 是如何实现的?distcp is implemented as a MapReduce jo...原创 2019-01-14 18:22:25 · 2470 阅读 · 0 评论 -
Hadoop 中的Short-circuit local reads是什么?
Hadoop中的Short-circuit local reads是什么?在client 和 datanode之间的传输数据When reading a file from HDFS, the client contacts the datanode and the data is sent to the client via a TCP connection.什么是short-ci...原创 2019-01-14 17:32:15 · 790 阅读 · 0 评论 -
NameNode 需要多大的内存?
HOW MUCH MEMORY DOES A NAMENODE NEED?1.为什么考虑给NameNode分配内存的问题?A namenode can eat up memory, since a reference to every block of every file is maintained in memory.2.该分配多少?It’s difficult to give ...原创 2019-01-14 16:23:44 · 4379 阅读 · 0 评论 -
org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(Ljava/lang/String;I)V
Exception in thread “main” java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(Ljava/lang/String;I)V1.程序报错MapReduce job 报错,报错信息如下:Exception in th...原创 2019-01-12 12:16:43 · 1472 阅读 · 3 评论 -
The method xxx must override or implement a supertype method
代码报错:The method xxx must override or implement a supertype method1. 报错如下The method xxx must override or implement a supertype method2. 原因见下图标注可以看到报这个错的原因是:泛型中的KEYIN 和 reduce方法中的KEYIN 不统一。所以报错...原创 2019-01-06 21:57:55 · 1839 阅读 · 0 评论 -
Hadoop源码阅读之WritableComparator类
Hadoop源码阅读之WritableComparator类1. 类简介All Implemented Interfaces: Comparator, Configurable, RawComparator包名:org.apache.hadoop.io.WritableComparator2. 类释义A Comparator for WritableComparables....原创 2019-01-06 18:01:36 · 510 阅读 · 0 评论 -
MapReduce 中的 setGroupingComparatorClass
MapReduce 中的 setGroupingComparatorClass1. setGroupingComparatorClass是什么?对发往reduce的 键值对进行分组操作。2. setGroupingComparatorClass有什么作用?job.setGroupingComparatorClass(....class);如果连续**(注意,一定连续)**的两条或多条记录...原创 2019-01-10 16:56:40 · 1443 阅读 · 1 评论 -
Hadoop中的dr.who是什么
Hadoop中的dr.who是什么?1.问题今天在查看自己的hadoop web ui的时候,发现了如下的界面:仔细看右上角,发现这里登陆的用户名是:dr.who,这个dr.who是谁呢?难道是别黑客入侵了?【一般不可能是黑客入侵,难道我自己的虚拟机集群都值钱?】2.原因下面这句话引自《Hadoop权威指南》的chapter 6 中的Setting Up the Development...原创 2019-01-04 20:55:16 · 10410 阅读 · 2 评论 -
Hadoop源码解析之Partitioner类
Hadoop源码解析之Partitioner 类1. 类定义public abstract class Partitioner&amp;lt;KEY,VALUE&amp;gt;extends Object抽象类继承自Object2. 类释义Partitions the key space.Partitioner controls the partitioning of the keys ...原创 2018-12-30 21:14:58 · 653 阅读 · 0 评论 -
Hadoop源码详解之DBOutputFormat类
Hadoop 源码详解之 DBOutputFormat 类1. 类释义A OutputFormat that sends the reduce output to a SQL table.一种将Reduce 输出到一个SQL表中的输出格式。DBOutputFormat accepts <key,value> pairs, where key has a type exte...原创 2018-12-22 17:34:45 · 482 阅读 · 0 评论 -
CDH安装环境预准备
CDH安装环境预准备step 1.检查是否安装了ntp相关包[laowang@cdh201 ~]$ rpm -qa | grep ntpfontpackages-filesystem-1.44-8.el7.noarchpython-ntplib-0.3.2-1.el7.noarchntpdate-4.2.6p5-22.el7.centos.x86_64step 2.安装NTP【集...原创 2018-07-05 19:04:01 · 515 阅读 · 0 评论 -
Kerberos服务安装
Kerberos服务安装step 1.安装kerberos Server在 102.2.5.13机器上安装kerberos server。使用命令:yum install krb5-server krb5-libs krb5-auth-dialog KDC的主机必须非常自身安全,一般该主机只运行KDC程序。本文中我们选择102.2.5.13作为运行KDC的主机。在安装完上述的软件之后...原创 2018-07-17 09:36:43 · 2137 阅读 · 0 评论 -
学习大数据的方式
学习大数据的方法—董西成谈大数据的学习有问题就找百度,有问题查书。这两种方式都是很落后的学习方式。大多数的大数据开发工程师都没有系统的学习大数据:开源;技术交流非常重要。软件更新速度很快,所以有问题查百度是有问题的,博客中,已经书中的信息都已经过时了。而且开源公司进一步加剧了开源软件的速度。开源软件学习最好的方式就是学习源代码。多读源代码,不需要细看。其次,官方文档也是很重要的。而不是百...原创 2018-02-21 23:35:40 · 407 阅读 · 0 评论 -
大数据面试题
大数据面试题下列哪个程序通常与 NameNode 在一个节点启动?答案D A)SecondaryNameNode B)DataNode C)TaskTracker D)Jobtracker 解析:hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,...原创 2018-02-21 10:14:05 · 611 阅读 · 0 评论 -
HDFS实战之下载文件
HDFS实战之下载文件源码如下package shen.liu.hdfs.practice;import java.io.BufferedOutputStream;import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;原创 2018-01-30 12:50:10 · 1978 阅读 · 0 评论 -
HDFS实战之打开文件
HDFS实战之打开文件源码如下package shen.liu.hdfs.practice;import java.io.IOException;import java.io.InputStream;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;im原创 2018-01-30 12:49:07 · 607 阅读 · 0 评论 -
HDFS实战之删除文件
HDFS实战之删除文件源代码如下:package shen.liu.hdfs.practice;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Pa原创 2018-01-30 12:48:07 · 6249 阅读 · 0 评论 -
使用Hadoop执行jar命令出现ClassNotFound错误
Hadoop jar命令出现ClassNotFound错误执行的命令如下:hadoop jar example-three.jar HDFSFolderShow /data 意思是去浏览hdfs中的/data文件夹。【需自己创建】 错误语句如下:Exception in thread “main” java.lang.ClassNotFoundException: HDFSFolderSh原创 2018-01-30 10:39:30 · 5923 阅读 · 0 评论 -
HBASE中的常见错误
HBASE中的常见错误错误信息如下:SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/usr/hbase/lib/slf4j-log4j12-1.6.4.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J: Fou原创 2018-02-05 23:34:37 · 548 阅读 · 0 评论 -
HDFS实战之浏览文件和目录
HDFS实战之浏览文件和目录Hadoop中HDFS常用的命令可以查看HDFS中的文件。【其中我一直不大清楚,这个HDFS文件是在虚拟机中的虚拟出来的一个文件夹,还是一个实实在在的文件?】现在完成的任务是:如何使用eclipse编写程序,然后打包成jar文件,然后在虚拟机中运行,然后体现出该目录下的文件以及目录。具体步骤如下: 1)新建一个java project,然后导入hadoop中原创 2018-01-29 22:38:35 · 2919 阅读 · 0 评论 -
MapReduce代码常见报错
Hadoop常见错误执行hadoop jar …命令时,出现Exception in thread “main” java.lang.UnsupportedClassVersionError错误,原因是:jdk版本类型不同【物理机上的jdk与虚拟机上的版本不同】。只要新建一个项目,调整一下jdk版本重现生成一个jar文件再执行一遍就好了。原创 2018-01-29 22:22:47 · 972 阅读 · 0 评论 -
Hadoop+HBase+Zookeeper安装摘要
Hadoop安装摘要1.安装hadoop 2.修改配置文件修改hadoop-env.sh文件export JAVA_HOME=${JAVA_HOME} -&amp;amp;amp;amp;amp;amp;gt;export JAVA_HOME=/usr/local/jdk1.8.0_161/修改core-site.xml文件&amp;amp;amp;amp;amp;amp;lt;configuration&amp;amp;amp;a原创 2018-04-04 16:54:10 · 1879 阅读 · 0 评论 -
DataNode无法启动的原因
DataNode无法启动的原因1.可能的原因有如下几个:1.多次执行./hadoop namenode -format命令,导致出错。解决办法:到安装hadoop目录下,:例如笔者的目录是:/usr/local/hadoop-2.6.4/etc/hadoop。查看core-site中的如下配置:<property> <name>hadoop...原创 2018-05-06 10:24:34 · 7328 阅读 · 3 评论 -
Hadoop 项目实战之一WordCount程序
Hadoop之MapReduce详解【待更新】一个MapReduce作业的运行周期是:(1)先在client端被提交到JobTracker上(2)然后由JobTracker将作业分解成若干个Task,并将这些Task进行调度和监控,以保障这些程序运行成功(3)TaskTracker则启动JobTracker发来的Task,并向JobTracker汇报这些Task的运行状态和本节点上资...原创 2018-06-01 10:43:44 · 1264 阅读 · 1 评论