![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
苍鹰蛟龙
这个作者很懒,什么都没留下…
展开
-
10、Hadoop切片机制
一个超大文件在HDFS上存储时,是以多个Block存储在不同的节点上,比如一个1G的文件,HDFS默认一个Block为128M,那么1G的文件分成8个Block存储在集群中8个节点上。Hadoop在map阶段处理上述1G的大文件时分成几个MapTask进行处理呢?...原创 2020-03-31 22:19:56 · 3757 阅读 · 0 评论 -
9、Hadoop序列化(自定义传输对象)
文章目录1、建立输入数据对应的bean2、建立Mapper分割处理数据3、建立Reducer合并数据4、建立job的启动类5、测试序列化就是把内存中的对象转化成字节序列,便于网络间传输和持久化到硬盘上,避免数据掉电丢失。在Haoop中定义的最常用的基本对象,都已经实现了org.apache.hadoop.io.Writable接口,比如BooleanWritable、ByteWritable、...原创 2019-12-12 00:07:54 · 420 阅读 · 0 评论 -
8、MapReduce实现WordCount单词统计
文章目录一、Mapper阶段二、Reduce阶段三、Driver阶段四、集群测试MapReduce分布式计算包含两个阶段:Mapper和Reduce。一个完整的MapReduce程序在分布式计算时包括三类实例进程:MrAppMaster:负责整个程序的过程调度及状态协调;MapTask:负责Map阶段整个数据处理流程;ReduceTask:负责Reduce阶段整个数据处理流程。Map...原创 2019-12-01 23:26:40 · 1209 阅读 · 0 评论 -
7、HDFS输入输出流
文章目录1、HDFS IO文件写入2、HDFS IO文件读取3、HDFS IO定位读取HDFS的输入输出流用于对HDFS文件进行字节的读取或写入。1、HDFS IO文件写入把windows本地文件通过HDFS的输出流写到HDFS文件中。@Testpublic void testHDFSIoOutput() throws IOException, InterruptedException,...原创 2019-10-20 22:27:57 · 1964 阅读 · 1 评论 -
6、eclipse + HDFS参数优先级
文章目录1、采用集群中配置2、采用classpath下的文件中配置的3、采用代码中的配置总结配置集群时,关于HDFS的配置都在/etc进行了相关配置,用eclipse客户端进行开发时,可以用更高优先级的配置覆盖掉集群中的配置。下面以设置副本为例。在hadoop集群中hdfs-site.xml的配置如下:<?xml version="1.0" encoding="UTF-8"?>...原创 2019-10-19 11:25:19 · 182 阅读 · 0 评论 -
5、eclipse + HDFS的文件操作
文章目录1、文件上传2、文件下载3、删除文件或文件夹4、文件重命名5、文件详情查看6、文件或文件夹判断eclipse + hadoop的开发环境搭建,请参考上一章节。1、文件上传把windows本地的文件上传到HDFS中,示例:@Testpublic void testCopyFromLocalFile() throws IOException, InterruptedException...原创 2019-10-17 22:25:23 · 516 阅读 · 0 评论 -
4、eclipse + vmware + hadoop环境搭建
文章目录一、配置hadoop环境二、配置eclipse远程连接hadoop环境三、HDFS demo示例需求:已在vmware中部署好了hadoop集群,现在需通过window系统上eclipse连接hadoop进行开发。一、配置hadoop环境在window系统上配置hadoop环境。目前利用hadoop版本为hadoop-2.7.2。下载或者编译好hadoop2.7.2后,环境配置如下...原创 2019-10-14 23:07:25 · 534 阅读 · 0 评论 -
VMware端口映射
文章目录步骤1、虚机访问端口2、vmware端口映射3、在宿主机上访问虚机中hadoop服务问题1、宿主机ping虚机2、检查虚机防火墙需求:在win10系统上安装了VMware,在VMware上安装了centos7操作系统,现在需要在win10宿主机上访问虚机centos7中的50070端口。由于宿主机不能直接访问虚机中的端口,需要通过vmware把虚机中的端口映射到宿主机未被占用的端口上,然...原创 2019-10-09 22:24:55 · 2174 阅读 · 0 评论 -
POSSIBLE DNS SPOOFING DETECTED
在配置一台宿主机两台docker容器的hadoop集群时,已经配置了三台机器的ssh,但是在启动hadoop的辅助接点时,报错如下:[root@lzj module]# start-dfs.sh Starting namenodes on [lzj]lzj: starting namenode, logging to /opt/module/hadoop-2.7.2/logs/hadoop-...原创 2019-09-13 23:49:00 · 518 阅读 · 1 评论 -
3、HDFS的shell命令大全
文章目录命令大全1、-help2、-ls 显示目录信息3、-mkdir 在HDFS上创建目录4、-moveFromLocal 从本地剪切到HDFS上5、-appendToFile 追加本地文件到HDFS文件末尾6、-cat 显示文件内容7、-chmod 修改文件权限8、-copyFromLocal 从本地拷贝到HDFS9、-copyToLocal 从HDFS拷贝到本地10、-cp HDFS内部文件...原创 2019-08-25 14:49:14 · 709 阅读 · 0 评论 -
2、hadoop的运行模式(centos+docker+hadoop)
文章目录伪分布式模式上一节介绍了hadoop的环境搭建,以及hadoop的wordcount示例的本地运行模式,本章节介绍hadoop的其它两种运行模式,依然以wordcount为例。hadoop包括3中运行模式:本地运行模式、伪分布式模式、完全分布式模式List item:本地运行模式:没有启动hadoop的守护进程,所有的程序都运行在本地的JVM中,适合开发学习和调试mapreduce...原创 2019-08-20 23:18:38 · 744 阅读 · 1 评论 -
WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!
为了能让容器(172.17.0.3)能通过ssh免密登录宿主机,需要将宿主机上的公钥复制到容器中,在宿主机中执行命令如下: ssh-copy-id 172.17.0.3但是执行命令时,提示如下错误:[root@fanhao-test ~]# ssh-copy-id 172.17.0.3/usr/bin/ssh-copy-id: INFO: Source of key(s) to...原创 2019-08-03 22:10:58 · 259 阅读 · 0 评论 -
dockerfile: cenos+hadoop+ssh
在进行hadoop集群测试时,用docker进行集群部署,在每个docker中部署一个hadoop服务,下面做一个镜像,用于在每个容器中启动hadoop,由于启动hadoop集群需要ssh服务,因此在镜像中加入ssh的配置。dockerfile内容如下:#version 0.1FROM centosWORKDIR /optRUN mkdir moduleADD . /opt/modul...原创 2019-07-29 23:34:25 · 526 阅读 · 0 评论 -
docker容器中启动hadoop的namenode,错误信息:which: command not found
在docker容器中部署hadoop时,执行hadoop-daemon.sh start namenode命令启动namenode节点,错误信息如下:根据提示的错误信息,第28行报错,打开文件/opt/module/hadoop-2.7.2/bin/hdfs发现第28行内容为: bin=which $0可知docker容器中没有安装which 命令工具。解决办法:在docker 容...原创 2019-07-14 21:39:43 · 2078 阅读 · 1 评论 -
1、hadoop环境搭建
文章目录1、创建安装目录2、安装JDK3、安装hadoop4、WordCount案例安装hadoop,需要安装jdk和hadoop1、创建安装目录在/opt目录下创建module、software文件夹,software用于存放安装的源文件,module用于存放安装后的软件,即解压后的文件。mkdir modulemkdir software2、安装JDK下载JDK(提取码:n43...原创 2019-06-07 23:07:16 · 195 阅读 · 0 评论