hadoop专场
文章平均质量分 62
入门大数据
曲健磊的个人博客
just do it!
展开
-
MapReduce性能优化秘籍
1. MapReduce跑的慢的原因MapReduce 程序效率的瓶颈在于两点:计算机性能CPU、内存、磁盘、网络I/O 操作数据倾斜map 和 reduce 数设置不合理map 运行时间太长,导致 reduce 等待过久小文件过多大量的不可分块的超大文件(例:通过 gzip 压缩后的文件)spill(溢写)次数过多merge(map 端合并或 reduce 端合并)次数...原创 2019-05-26 15:30:37 · 804 阅读 · 0 评论 -
阿里云部署hadoop,使用shell操作一切正常,但是使用java api操作上传文件大小为0
感谢原文作者 vaf714 做出的解答!原文链接:https://blog.csdn.net/vaf714/article/details/82996860前提A 云主机是 Linux 环境,搭建 Hadoop 伪分布式,公网 IP:49.4.71.xxx,内网 IP:192.168.0.80,主机名:ruixin4。Hadoop 配置信息如下:<property>...转载 2018-12-29 10:35:43 · 1117 阅读 · 1 评论 -
解决:运行sbin下的start-hdfs.sh时报WARN util.NativeCodeLoader: Unable to load native-hadoop
一开始按照网上的教程,修改 hadoop-env.sh 内容如下:export JAVA_HOME=/root/training/jdk1.8.0_144export HADOOP_HOME=/root/training/hadoop-2.7.3export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/nativeexport HADOOP_...原创 2018-12-25 13:37:00 · 1275 阅读 · 0 评论 -
解决 hadoop 在网页上查看 livenodes 为 0 但是使用 jps查看却存在 datanode
笔者用三台虚拟机模拟全分布环境,start-dfs.sh 启动 HDFS 之后,在三台机器上执行 jps 命令分别看到了如下信息:NameNode,SecondaryNameNodeDataNodeDataNode主节点 NameNode,两个从节点 DataNode 均显示正常,但是通过 50070 端口在网页上查看 NameNode 的信息时,却发现 live nodes 数量为0...原创 2018-12-04 23:23:28 · 1562 阅读 · 0 评论 -
实现一个 WordCount 程序 —— MapReduce
需要导入的依赖如下:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-ins原创 2018-11-27 19:20:55 · 418 阅读 · 0 评论 -
HDFS(九)——HDFS 的底层原理(RPC 和 动态代理对象 Proxy)
HDFS 的底层通信原理采用的是: RPC 和 动态代理对象 Proxy。RPC(Remote Procedure Call)什么是 RPC?Remote Procedure Call,远程过程调用。也就是说,调用过程代码并不是在调用者本地运行,而是要实现调用者与被调用者两地之间的连接与通信。RPC 的基本通信模型是基于 Client/Server 进程间相互通信模型的一种同步通信形式...原创 2018-11-26 17:38:21 · 1429 阅读 · 0 评论 -
HDFS(八)—— HDFS 的安全模式,hdfs-default.xml 文件的位置
安全模式是 hadoop 的一种保护机制,用于保证集群中的数据块的安全性。如果 HDFS 处于安全模式,则表示 HDFS 是只读状态。原创 2018-11-26 13:30:52 · 2120 阅读 · 0 评论 -
HDFS(七)—— HDFS 的高级功能
HDFS 的高级功能主要包括:回收站快照配额一、回收站二、快照三、配额原创 2018-11-25 14:59:54 · 540 阅读 · 0 评论 -
HDFS(六)—— HDFS 文件下载的过程
五、在内存中查找文件的元信息数据的元信息是优先存储在内存中的,所以 NameNode 会优先去内存中查找。为了保证元信息的查找速率,通常我们会使用 NameNode 的联盟对内存容量进行扩展。六、在 fsimage 文件中查找文件的元信息原创 2018-11-25 13:22:24 · 10673 阅读 · 0 评论 -
HDFS(五)—— HDFS 文件上传的过程
一、客户端发送请求客户端执行上传文件的命令:`hdfs dfs -put a.avi /movie`。二、DFSClient.java 创建 DistributedFileSystem请求首先被 DFSClient.java 这个类获取到,由该类创建 DistributedFileSystem 对象。原创 2018-11-25 12:37:29 · 1011 阅读 · 0 评论 -
HDFS(四)——使用 HDFS 的 JavaAPI
通过 HDFS 提供的 Java API,我们可以完成以下功能:在 HDFS 上创建目录通过 FileSystem API 读取数据(下载文件)写入数据(上传文件)查看目录及文件的信息查看某个文件在 HDFS 集群中的位置删除数据获取 HDFS 集群上所有数据节点的信息...原创 2018-11-25 11:50:48 · 554 阅读 · 0 评论 -
HDFS(三)——用 Java 创建一个 HDFS 目录,HDFS 的权限的问题
一、导入 HDFS 所需 jar 包把解压后的 hadoop 文件夹下的 common 目录中的 jar,和里面的 lib 包中所有的 jar,以及 hdfs 目录下的 jar,和里面的 lib 包中所有的 jar 都添加到项目的环境变量中。二、Codingpackage demo;import org.apache.hadoop.conf.Configuration;import ...原创 2018-11-23 22:06:52 · 3670 阅读 · 0 评论 -
HDFS(二)——HDFS 常用命令
操作 HDFS 的命令主要分两种:操作命令,管理命令。一、操作命令操作命令以 hdfs dfs ****开头。-mkdir:创建目录。例 1:hdfs dfs -mkdir /aaa—> 在 HDFS 的根目录下创建一个目录aaa。例 2:hdfs dfs -mkdir -p /bbb/ccc—> 在 HDFS 的 /bbb 目录下创建 ccc 目录,如果 bbb 不存在...原创 2018-11-21 23:54:08 · 779 阅读 · 0 评论 -
HDFS(一)—— 使用 HDFS 的 WebConsole
当执行 启动 HDFS 的时候,可以通过 WebConsole(网页管理界面)来查看 HDFS 的状态,执行一些操作。一些常用的 WebConsole 端口:8088:Yarn50070:NameNode50090:SecondaryNameNode以 50070 为例,简单的了解一下页面上的一些信息:Overview 选项卡下的截图:Startup Progress 选...原创 2018-11-21 00:00:00 · 2332 阅读 · 0 评论 -
Hadoop 的体系结构
一、HDFS 的体系结构二、Yarn 的体系结构三、HBase 的体系结构四、主从结构的单点故障和解决方案原创 2018-11-20 00:02:40 · 677 阅读 · 0 评论 -
Hadoop的三种配置模式以及免密登录
本地模式特点:只需要一台服务器,没有HDFS、只能测试 MapReduce 程序,MapReduce 处理的是本地 Linux 的文件数据。配置步骤:修改 hadoop-2.7.3/etc/hadoop 目录下的 hadoop-env.sh 文件,在第 25 行做如下修改(配置JAVA_HOME):export JAVA_HOME=/root/training/jdk1.8.0_1...原创 2018-11-18 15:22:13 · 2879 阅读 · 0 评论 -
安装 Hadoop 以及 Hadoop 的目录结构
搭建 Hadoop 的环境安装 JDK,关闭防火墙。JKD 的安装请自行百度。查看防火墙状态:systemctl status firewalld.service关闭防火墙:systemctl stop firewalld.service(如果重启,则会重启防火墙)禁用防火墙:systemctl disable firewalld.service(永久关闭防火墙)使用 WinS...原创 2018-11-15 23:35:38 · 1014 阅读 · 0 评论