![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
beeworkshop
长风破浪会有时,直挂云帆济沧海
展开
-
HDFS的归档
hadoop的归档文件(archive)——har。目的:减少大量小文件。归档hadoop archive -archiveName files.har -p /my/files /my将/my/files归档后放于/my下。显示归档文件hadoop fs -ls -R har:///user/bee/foo.har归档文件一旦创建便不能修改,想从中增加或删除文件,必须重...原创 2019-09-14 07:00:14 · 752 阅读 · 0 评论 -
hadoop将对象串行化
关键部分必须实现Writable接口(序列化和反序列化)。在实现Writable接口的过程中,要实现write()方法。在该方法中要使用hadoop基本数据类型包装类的write()方法。public class Person implements Writable{ String name; int age; public void write(DataOutput out){...原创 2019-09-15 23:29:03 · 151 阅读 · 0 评论 -
MapReduce笔记-1
map()——映射一次处理一行,每行记录都会经过map()处理。需转换为键值对,map(key, value)。通过对key哈希,把相同key的键值对交给特定的节点处理。reduce——化简shuffle从mapper节点复制存储的output数据。sort按照key值对input数据进行排序。reduce...原创 2019-10-02 18:33:36 · 137 阅读 · 0 评论 -
MapReduce笔记-2
对输出数据切片对于压缩文件无法切片切片的数量决定了Map的数量切片的尺寸算法:size = Math.max(minSize, Math.min(maxSize, blockSize));原创 2019-10-04 16:18:05 · 299 阅读 · 0 评论 -
Mapreduce经典案例WordCount
主应用APPimport org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.lib.inp...原创 2019-10-05 03:09:10 · 223 阅读 · 0 评论 -
远程调试资源管理器
Server端(NameNode)设置JVM的远程调试选项运行java程序阻塞等待客户端的连入Client端eclipse打开源代码原创 2019-10-06 00:06:05 · 166 阅读 · 0 评论 -
HDFS的机架感知(rack aware)
1. 机架感知原创 2019-09-13 18:20:48 · 313 阅读 · 1 评论 -
HDFS API读取/写入过程
1. 读取过程大概流程具体过程代码如下:FileSystem fs=FileSystem.get(conf); // 对于hdfs协议使用的是DistributedFileSystem// 该过程成还会调用DFSClient和DFSInputStreamfs.open(path); // 返回FSDataInputStream,具体用的是HdfsDataInpu...原创 2019-09-13 11:54:43 · 578 阅读 · 0 评论 -
HDFS的HA
HDFS HA的架构针对NameNode启用两台物理主机,一台Active,一台Standby。Active NameNode主机负责所有操纵,Standby NameNode主机待命。Journal是单独的进程(JournalNodes,JNs),负责Active NameNode主机和Standby NameNode主机之间的同步通信。Active NameNode的修...原创 2019-09-13 09:37:24 · 202 阅读 · 0 评论 -
Hadoop学习笔记-1
一. 基本操作1. Ubuntu从桌面模式切换到文本模式快捷键:Ctrl+Alt+F62. Ubuntu从文本模式切换到桌面模式快捷键:Ctrl+Alt+F7二. 基本概念1. 大数据的容量单位换算(单位byte)1024B=1K1024K=1M1024M=1G1024G=1T1024T=1P1024P=1E1024E=1Z1024Z=1Y1024Y=1N1024N...原创 2019-08-25 22:34:48 · 416 阅读 · 0 评论 -
Hadoop学习笔记-2
hadoop的端口NameNode:50070http://namenode:50070/ResourceManager:8088http://localhost:8088HistoryServer:19888http://hs:19888Name RPC:8020hdfs://namenode8020格式化只需要在NameNode上做就可以:hd...原创 2019-08-26 00:35:19 · 116 阅读 · 0 评论 -
Hadoop学习笔记-3
从jar包中提取默认配置core-default.xmlhadoop-common-< ver >.jarhdfs-default.xmlhadoop-hdfs-< ver >.jarmapred-default.xmlhadoop-mapreduce-client-core-< ver >.jaryarn-default.xmlhadoo...原创 2019-09-01 16:29:07 · 138 阅读 · 0 评论 -
Hadoop学习笔记-4
元数据持久化原理如下:本地多目录多个目录之间使用逗号分隔dfs.namenode.name.dirNameNode配置多个本地目录主要是为了可靠性;每个目录存放的内容相同;dfs.datanonde.data.dir可以给不同的节点配置不同的数据存放目录;同一节点的不同的数据存放目录存放的数据内容不同——各目录之间不是备份的关系;数据节点配置多个目录不是为了可靠性;每...原创 2019-09-03 23:27:09 · 215 阅读 · 0 评论 -
Hadoop完全分布式搭建(NameNode与SecondaryNameNode分离)
本文记录Hadoop完全分布式的搭建。搭建使用5台主机,且NameNode和SecondaryNameNode分别部署在不同的机器上。一. 地址及角色规划主机名主机IP角色node01192.168.74.201NameNodenode02192.168.74.202SecondaryNameNodenode03192.168.74.203Data...原创 2019-09-08 00:03:31 · 2035 阅读 · 0 评论 -
Hadoop学习笔记-5
1. 独立启动/停止Hadoop进程在一台主机上执行hadoop-daemon.sh start datanodehadoop-daemon.sh stop datanode或者hdfs datanodeCtrl + zbg 或者 bg %1 # 转后台运行2. HA的解决方案两个名称节点(active-standby)QJM(Quorum Journal Manager)...原创 2019-09-09 17:20:43 · 111 阅读 · 0 评论 -
Hadoop伪分布式集群搭建
一. HDFS、MR、YARN更改主机名称[root@localhost ~]# hostname node1[root@localhost ~]# vim /etc/hostname[root@localhost ~]# vim/etc/sysconfig/network[root@localhost ~]# cat /etc/sysconfig/networkNETWORKI...原创 2019-08-25 18:47:40 · 146 阅读 · 0 评论