hadoop知识笔记
文章平均质量分 66
最简单的Hadoop入门教程
苍老流年
对未来的不确定与焦虑保持独立的判断与认知
展开
-
1. hadoop 3.x 完全分布式环境搭建
slaves 文件 配置slave节点core-site.xml mapred-site.xml yarn-site.xmlhadoop-env.sh hdfs-site.xml 副本数 replication namenode.name datanode.datacore-site.xml hadoop.tmp.d...原创 2018-05-29 16:17:20 · 827 阅读 · 2 评论 -
2. hadoop 3.x HDFS HA高可用集群(手工切换)搭建
实验环境namenode1: 192.168.103.4namenode2: 192.168.103.8datanode1:192.168.103.15datanode2: 192.168.103.5 datanode3: 192.168.103.3操作系统: ubuntu-16.04-x64hadoop版本: apache-hadoop-2.6.5jdk版本:1.8安装步...原创 2018-06-01 13:52:11 · 1888 阅读 · 3 评论 -
hadoop 完全分布式HA高可用集群(自动切换)搭建
实验环境namenode1: 192.168.103.4namenode2: 192.168.103.8datanode1:192.168.103.15datanode2: 192.168.103.5 datanode3: 192.168.103.3操作系统: ubuntu-16.04-x64hadoop版本: apache-hadoop-2.6.5jdk版本:1.8安装步...原创 2018-06-02 11:40:53 · 4611 阅读 · 2 评论 -
4. HDFS Java API使用
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...原创 2018-06-10 14:36:16 · 136 阅读 · 0 评论 -
HDFS 回收站
http://debugo.com/hdfs-trash/原创 2018-05-31 10:19:50 · 858 阅读 · 0 评论 -
hadoop HDFS机架感知
实验环境机架感知一个hadoop分布式集群会有很多的服务器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,机架内的服务器之间的网络速度通常都会高于跨机架服务器之间的网络速度,并且机架之间服务器的网络通信通常受到上层交换机间网络带宽的限制。HDFS对数据文件是分block存储,每个block默认有3个副本(也可以配置大于3),HDFS对副本的存放策略如下:...原创 2018-06-24 16:10:44 · 444 阅读 · 0 评论 -
Hadoop小文件归档
HDFS存储小文件的弊端HDFS文件的元数据存放在NameNode内存中,大量的小文件会导致NamenNode内存耗尽。HDFS提供了一种针对小文件的归档方案,对NameNode来说lai将多个小文件归档为一个整体,因此可以大大降低元数据的开销。但是对于用户访问来说确是透明的,仍然可以按照以前的方式访问。案例文件归档需要执行mapreduce任务,因此需要确保yarn服务正常启动。...原创 2019-12-06 10:46:43 · 602 阅读 · 0 评论 -
HDFS快照与配额
实验环境hadoop版本:2.6.5快照HDFS快照(snapshot)是对文件系统子树在给定时刻的一个只读副本。由于不并不真正复制数据,因此快照非常高效,它们简单的记录每个文件的元数据和块列表,这对于重构快照时刻的文件系统内容已经足够了。快照一般用于数据备份。 在HDFS中快照功能默认关闭。开启快照$ hdfs dfs -lsr /test #test目录为实验目录...原创 2018-07-14 16:26:48 · 540 阅读 · 0 评论 -
YARN 架构概述
YARN产生背景YARN架构YARN工作流程原创 2018-07-14 00:20:11 · 1054 阅读 · 0 评论 -
sqoop导出avro格式文件报错
环境版本[root@dscn2 sqoop-1.4.7]# ./bin/sqoop import --connect jdbc:mysql://192.168.11.75:3306/test --username root --password chenliabc --table t1 --target-dir /user/root/sqoop -m 1 --as-avrodatafile...原创 2018-11-06 15:40:58 · 1021 阅读 · 0 评论 -
mapreduce中使用hadoop序列化
序列化概述1.什么是序列化序列化就是将对象转换为字节序列以便于存储到磁盘或网络传输。反序列化就是将字节序列转换为对象的过程。2.为什么要序列化程序中的对象不能直接网络传输或者持久化,所以在跨主机通信和数据持久化的场景下就需要用到序列化。3.为什么不用java原生序列化java原生序列化是一个重量级的实现,一个对象被序列化后会附带很多额外的信息(各种校验信息,Header,继承体系),...原创 2020-03-11 23:41:01 · 265 阅读 · 0 评论 -
Ambari 启动 oozie UI
Oozie UI 启动过程中需要依赖Ext JS,而由于License的原因,HDP2.6以后的版本中Ext JS将不再被包含其中。所以需要自己手动安装才能使用Oozie UI。解决步骤如下:下载并安装Ext JS包CentOS RHEL Oracle Linux 6:wget http://public-repo-1.hortonworks.com/HDP-UTILS-GPL-1.1....原创 2018-12-28 14:50:14 · 620 阅读 · 0 评论 -
mapreduce org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z错误解决
今天本地调试mapreduce程序时遇到如下问题Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z at org.apache.hadoop.io.nativeio.Nativ...原创 2020-03-10 22:23:31 · 345 阅读 · 0 评论 -
Flume 概述
flume 自定义source原创 2019-12-22 19:06:27 · 151 阅读 · 0 评论