hadoop学习_长安一片月的博客-CSDN博客

hadoop学习

关注

关注数：文章数：31 文章阅读量：55174 文章收藏量：63

作者: 长安一片月

这个作者很懒，什么都没留下…

展开

Linux安装hadoop配置完全分布式

搭建hadoop完全分布式工具：CentOS6.5jdk8hadoop2.7.6安装包都是.tar.gz后缀三台虚拟机192.168.136.133 Master192.168.136.134 Slave1192.168.136.135 Slave2在每个虚拟机上添加ip映射的主机名$ sudo vim /etc/hosts127.0.0.1 localhost192.16...

原创 2018-05-16 22:09:51 · 4416 阅读 · 3 评论
Day06-HDFS的体系结构(namenode作用、datanode作用、block)、fsimage文件、edits文件和checkpoing检查点机制

HDFS的体系结构(namenode作用、datanode作用、block)、fsimage文件、edits文件和checkpoing检查点机制和Namenode开启过程HDFS的体系结构------------------------- 1.namenode[守护进程]作用：管理文件系统名称空间；【fsimage元数据镜像文件】管理客户端对文件的访问。【edits操作文件...

原创 2018-06-07 13:08:28 · 610 阅读 · 1 评论
Day04-静态IP设置、克隆虚拟机、Hadoop完全分布式搭建

静态IP设置、关闭防火墙、克隆虚拟机、Hadoop完全分布式搭建静态IP的设置-------------------------- 1.VMware-->编辑-->虚拟网络编辑器-->还原默认配置-->重置网络设置 2.VMware-->编辑-->虚拟网络编辑器-->选中VM8-->关掉DHCP 3.查看网络相关配置： ...

原创 2018-06-07 14:27:57 · 509 阅读 · 0 评论
Ubuntu14中安装zookeeper3.4.6和Storm0.9.6

安装Zookeeper1. 解压安装包到/usr/local中2. 修改/usr/local下的zookeeper-版本号文件夹改为zookeeper3. 修改zookeeper文件的拥有者为hadoop用户4. 修改配置文件/usr/local/zookeeper/conf/zoo.cfga. 在zookeeper目录下新建tmp文件b. 将con...

原创 2018-06-07 19:01:17 · 304 阅读 · 0 评论
Storm编程实践(安装Maven-使用Maven编译运行代码-mvn 打包)

Storm编程实践(安装Maven-使用Maven编译运行代码-mvn 打包)实验报告（三）《Hadoop数据分析平台II》实验报告实验名称：Storm编程实践姓名/学号：甘宇/041540120 日期：18.6.4 实验环境：操作系统：Linux Hadoop版本：2.6.0或以上版本 Zookeeper版本：3.4.6或以上版本 Storm版本：0.9.6或以上版本 Mav...

原创 2018-06-08 09:44:43 · 1299 阅读 · 0 评论
第十一章-安装Flume(使用Flume操作两个实例)

一、安装Flume1. 解压Flume安装包到/usr/local中$>sudo tar -zxf apache-flume-1.7.0-bin.tar.gz -C/usr/local2. 给Flume文件夹改名$>cd /usr/local$>sudo mv apache-flume-1.7.0-bin/ flume3. 修改flume文件夹的拥有者$&...

原创 2018-06-08 15:06:17 · 1799 阅读 · 0 评论
Kafka的安装和简单实例测试

Kafka的安装和简单实例测试一、安装kafka前提：事先将kafka_2.10-0.10.1.0.tgz安装包放入到~/下载目录下。注：kafka的使用依赖zookeeper,安装kafka前必须先安装zookeeper, 下载稳定版本0.10.1.0的kafka.此安装包内已经附带zookeeper,不需要额外安装zookeeper.1. 进入~/下载目录，查看安装包是否存在$&g...

原创 2018-06-19 09:02:26 · 739 阅读 · 0 评论
提交MapReduce任务出错：unknown queue: default

报错：unknown queue: default原因：提交job作业，给application设置队列，如果没有设置队列，默认加载default队列，问题是学习配置任务队列的时候，我把参数设置order,phone，这样把之前root下默认的default给覆盖掉了。解决：在重新配置root下的队列中多加一个default用,隔开。错误截图：capacity-schedu...

原创 2018-07-23 22:04:36 · 3782 阅读 · 0 评论
在myeclipse中运行MR从http://localhost:8080/到http://master:8088/

问题：我把4个配置文件已经设置为在hdfs存储，在yarn上运行，但是打包driver类放到lib目录下，也添加到path中，集群也打开了，问题就是运行的时候显示job在localhost上运行。即The url to track the job: http://localhost:8080/ 没有: mapreduce.Job: The url to track the job: htt...

原创 2018-07-23 23:06:02 · 1985 阅读 · 0 评论
出错：/bin/bash: line 0: fg: no job control

问题：在windows的myeclipse上运行MapReduce在Linux的yarn上，会出现这个错误。4个配置文件已经配好，Linux上的集群和yarn也已经开启。原因：我是刚配置完mapred-site.xml文件中的mapreduce.framework.name值为yarn，集群上也修改了一些配置文件。解决：第二天使用Myeclipse就能直接使用，简单来说重启电脑。...

原创 2018-07-24 17:01:16 · 1908 阅读 · 0 评论
关于继承Reducer类，内部方法分析

写自己的MyReducer类需要继承Reducer类。其中逻辑算术写在reduce()函数中，setup()函数在整个reducer中是靠前面执行的，且只执行一次。所以很多需要设计在输出前面的且不重复执行的可以写在setup()方法中。...

原创 2018-07-24 17:03:38 · 671 阅读 · 0 评论
Day08-hdfs commond命令

hdfs commond命令---------------------------- 1.appendToFile追加文件至目标文件末尾；(开yarn进程) $>hadoop fs -appendToFile text111.txt /spaceQuota/text.txt 2.getmerge:合并文件 $>hadoop fs -getm...

原创 2018-08-25 10:19:03 · 161 阅读 · 0 评论
Day09-搭建IDE

hdfs API----------------------- 1. 2. 搭建IDE a. b. 集成eclipse环境 1.将hadoop-eclipse-plugin-2.6.0.jar复制到 2. 3. 4. 5.创建hadoop链接： a>.打开【MapReaduce Loca...

原创 2018-08-25 10:20:46 · 180 阅读 · 0 评论
Day09-hdfs API

hdfs API-------------------- 1.HDFS:hadoop分布式文件系统--> 两种表现形式：1.hadoop fs shell命令：【hadoop fs -commond】 2.java API方式访问: 【DistributedFileSystem】对应的HDFS 2.搭建IDE ...

原创 2018-08-25 10:21:42 · 236 阅读 · 0 评论
Day07-hdfs dfsadmin 常用命令-包括手动合并镜像文件(fsimage)与操作文件(edits)，手动滚动操作文件

hdfs dfsadmin 常用命令-包括手动合并镜像文件(fsimage)与操作文件(edits)，手动滚动操作文件手动操作checkpoint----------------------------- 1.安全模式：【开启状态】 $>hdfs dfsadmin -safemode enter //进入 $>hdfs dfsadmin -safemode le...

原创 2018-06-07 13:02:39 · 2480 阅读 · 0 评论
如何减少block的数量？也就是减小Namenode的内存压力？

问题：如何减少block的数量？也就是减小Namenode的内存压力？答：设置dfs.blocksize参数即可，这个参数是设置块的大小，默认是128M，现实应用中可以提高块的大小，如：256M或者512M,这样可以减小快的数量，从而减小Namenode 的内存大小...

原创 2018-06-07 12:54:03 · 793 阅读 · 0 评论
nanemnode内存大小有谁决定？

问题：nanemnode内存大小有谁决定？答：由集群中的块的数量决定；换算规则：默认情况下，每个block大小对应元数据为150字节。那么，如集群中存在1亿个块文件，元数据大小为1亿*150/1024*1024*1024=14G ...

原创 2018-06-07 12:50:03 · 337 阅读 · 0 评论
start-dfs.sh脚本分析，从源码分析

start-dfs.sh脚本分析启动start-dfs.sh 加载config.xml (hadoop相关配置信息)启动hadoop-daemons.sh(启动slaves和hadoop-daemon.sh)启动hadoop-daemon.sh(根据相关参数，运行)启动hdfs (根据参数，找到对应的class文件进行运行) 举个栗子：启动 namenode① start-dfs.sh② ha...

原创 2018-05-29 16:54:24 · 3014 阅读 · 4 评论
centos6.5设置静态ip

centos6.5设置静态ip1. 桥连模式DEVICE=eth0 TYPE=Ethernet UUID=edece2c6-947e-4e8b-ab2e-43ed59c6a614 ONBOOT=yes NM_CONTROLLED=yes BOOTPROTO=static #修改成 static 或 none 都行 HWADDR=00:0C:29:5e:1f:c3 DEFR...

原创 2018-05-29 16:57:16 · 512 阅读 · 1 评论
通过克隆虚拟机搭建hadoop集群，开启hadoop后，live node 只出现一个，随机是slave1或slave2

问题：克隆虚拟机，配置hadoop完全分布式。每台机器都配置完静态ip，主机名，主机和ip映射。开启hadoop集群，(start-dfs.sh)，master主机上namenode和secondarynamenode，slave1主机上的datanode，slave2主机上的slave2主机上的datanode都开启了，但是在master:50070网址上live node 只有一个，这个nod...

原创 2018-05-29 17:00:22 · 2662 阅读 · 3 评论
给虚拟机修改静态IP

问题：给虚拟机修改静态IP。解决：a.打开VMware虚拟机-->编辑-->虚拟网络编辑器-->选中vmnet8-->恢复默认设置(这样windows的vmnet8和虚拟机的vmnet8网络在同一个段位，windows能ping同虚拟机。为防止重启电脑windows的vmnet8网络ip会自动分配，可以给windows中的vmnet8取消自动分配，设置ipv4为静态ip)-...

原创 2018-05-29 17:02:02 · 1336 阅读 · 1 评论
eth0: 错误：没有找到合适的设备：没有找到可用于链接’System eth0’的设备

问题：弹出界面eth0: 错误：没有找到合适的设备：没有找到可用于链接’System eth0’的设备详细原因：给克隆后的虚拟机配置静态ip。已经把/etc/sysconfig/network-scripts/ifcfg-eth0中的内容修改完，重启网络服务的时候，(切换root，或sudo)su root,service network restart，出错：弹出界面eth0: 错误：没有找到合...

原创 2018-05-29 17:04:06 · 5648 阅读 · 1 评论
弹出界面eth0：错误：激活连接失败：Device not managed by NetworkManager or unavailable

问题描述：刚配置完网络ip为静态ip，想重启网卡$>service network restart最后一条显示：弹出界面eth0：错误：激活连接失败：Device not managed by NetworkManager or unavailable原因：windows中没有开启VMware NAT Service和VMnetDHCP服务解决方法：把VMware NAT Service和V...

原创 2018-05-29 17:31:39 · 4111 阅读 · 1 评论
CentOS6.5搭建hadoop伪分布式集群

搭建伪分布式集群： 1.ssh无密登录 a.在家目录下创建.ssh文件夹，修改文件夹权限为700 $>mkdir ~/.ssh $>chmod 700 ~/.ssh b.生成公钥 $>ssh-keygen -t rsa -P '' -f ~/.ssh c.将公钥添加至认证库，修改authorized_keys的权限为600 ...

原创 2018-05-29 18:26:44 · 1047 阅读 · 1 评论
CentOS6.5搭建hadoop完全分布式集群

搭建完全分布式集群-------------------------------前提条件：已经按照之前的步骤搭建完伪分布式。https://blog.csdn.net/weixin_42006411/article/details/80500217搭建hadoop伪分布式链接：点击打开链接方法：克隆虚拟机。 1.修改静态ip a.删除之前的mac地址，记录现在的mac地址，并修改name为...

原创 2018-05-29 18:29:58 · 1419 阅读 · 1 评论
hadoop1-实验四-ubuntu-14.04.5-desktop-i386中安装Hbase

ubuntu-14.04.5-desktop-i386中安装Hbase实验环境：1.ubuntu-14.04.5系统2.hbase-1.1.5-bin.tar.gz安装包3.hadoop伪分布式搭建完成一、安装Hbase 1. 使用传输工具将Hbase安装包发送到Ubutu系统的/home/hadoop/下载目录下 2. 解压Hbase安装包到/usr/local下 $>sud...

原创 2018-06-21 14:15:05 · 637 阅读 · 0 评论
hadoop2-第十二章-Sqoop安装与使用

Sqoop的安装与使用Sqoop介绍Sqoop即 SQL to Hadoop ，是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具，充分利用MapReduce并行特点以批处理的方式加快数据传输，发展至今主要演化了二大版本，Sqoop1和Sqoop2，我们以Sqoop1为案例进行讲解，Sqoop2商用不太稳定。Sqoop工具是Hadoop下连接关系型数据库和Hadoop的桥梁，支持关系型...

原创 2018-06-21 21:52:51 · 271 阅读 · 0 评论
在Linux系统中使用java、javac等命令，报错：bash: ./java: cannot execute binary file

问题：在Linux系统中装完jdk(我的是Ubuntu14)，环境变量都配完了，一切都准备结束。使用java命令，报错：bash: ./java: cannot execute binary file 原因：Linux系统是32位的，而安装的jdk版本是64位的。当然运行不了。解决方法：最简单的是重新下载一个32位的jdk，一般32位的jdk文件都带有i586等字样，重新安装jdk，把之前安装的j...

原创 2018-06-07 12:42:33 · 3725 阅读 · 0 评论
Namenode处于安全模式时，对hadoop进行查看操作，edits_inprogress_txid中没有事物事件的增加，txid没有增加？

1. 问题：Namenode处于安全模式时，对hadoop进行查看操作，edits_inprogress_txid中没有事物事件的增加，txid没有增加？答案：Namenode处于安全模式时，对hadoop不能进行创建、修改，可以对其进行查看，我的理解是因为处于安全模式，一般是为fsimage_镜像文件和edits_***-***操作文件进行整合新的镜像文件做准备，合成新的fsimage...

原创 2018-06-07 12:46:10 · 1034 阅读 · 0 评论
namenode与secondarynamenode是否放到同一个节点？

1.namenode与secondarynamenode是否放到同一个节点？答：不能。原因：内存！！！！！单节点内存大小有物理限制。2.现实应用中Namenode和SecondaryNamenode能不能放在一台机器上？答案：因为Namenode的内存是它的瓶颈，SecondaryNamenode负责复制edits_*-*和fsimage_txid,然后整合成新的fsimage_文件，并...

原创 2018-06-07 12:48:35 · 7311 阅读 · 0 评论
Day12-Hadoop中MapReduce编程

hadoop------------------------------- 1.组成：common、hdfs、mapreduce、yarn。 2.hadoop集群搭建流程：3种搭建流程。 3.hdfs shell命令 4.hdfs体系结构：主从结构{namenode、datanode、secondarynamenode} 都是守护进程而非节点。【官网结构图】 fs...

原创 2018-08-25 10:24:45 · 243 阅读 · 0 评论

hadoop学习

作者: 长安一片月

Linux安装hadoop配置完全分布式

Day06-HDFS的体系结构(namenode作用、datanode作用、block)、fsimage文件、edits文件和checkpoing检查点机制

Day04-静态IP设置、克隆虚拟机、Hadoop完全分布式搭建

Ubuntu14中安装zookeeper3.4.6和Storm0.9.6

Storm编程实践(安装Maven-使用Maven编译运行代码-mvn 打包)

第十一章-安装Flume(使用Flume操作两个实例)

Kafka的安装和简单实例测试

提交MapReduce任务出错：unknown queue: default

在myeclipse中运行MR从http://localhost:8080/到http://master:8088/

出错：/bin/bash: line 0: fg: no job control

关于继承Reducer类，内部方法分析

Day08-hdfs commond命令

Day09-搭建IDE

Day09-hdfs API

Day07-hdfs dfsadmin 常用命令-包括手动合并镜像文件(fsimage)与操作文件(edits)，手动滚动操作文件

如何减少block的数量？也就是减小Namenode的内存压力？

nanemnode内存大小有谁决定？

start-dfs.sh脚本分析，从源码分析

centos6.5设置静态ip

通过克隆虚拟机搭建hadoop集群，开启hadoop后，live node 只出现一个，随机是slave1或slave2

给虚拟机修改静态IP

eth0: 错误：没有找到合适的设备：没有找到可用于链接’System eth0’的设备

弹出界面eth0：错误：激活连接失败：Device not managed by NetworkManager or unavailable

CentOS6.5搭建hadoop伪分布式集群

CentOS6.5搭建hadoop完全分布式集群

hadoop1-实验四-ubuntu-14.04.5-desktop-i386中安装Hbase

hadoop2-第十二章-Sqoop安装与使用

在Linux系统中使用java、javac等命令，报错：bash: ./java: cannot execute binary file

Namenode处于安全模式时，对hadoop进行查看操作，edits_inprogress_txid中没有事物事件的增加，txid没有增加？

namenode与secondarynamenode是否放到同一个节点？

Day12-Hadoop中MapReduce编程