![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 67
lzxyzq
这个作者很懒,什么都没留下…
展开
-
Hadoop集群WordCount详解(二)
Hadoop WorkCount详解(二)源代码程序WorkCount处理过程1、源代码程序package org.apache.hadoop.examples;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.ap原创 2016-05-07 20:58:35 · 1462 阅读 · 1 评论 -
Hadoop HDFS Tools
Hadoop HDFS Toolspackage cn.buaa;import java.io.ByteArrayOutputStream;import java.io.IOException;import java.io.InputStream;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FS原创 2016-05-06 20:34:10 · 2729 阅读 · 0 评论 -
HDFS 基本文件操作API
HDFS 基本文件操作API:按照“创建、打开、获取文件信息、获取目录信息、读取、写入、关闭、删除”的顺序讲解Hadoop 提供的文件操作的API。1.创建文件FileSystem.create 方法有很多种定义形式,是参数最多的一个:public abstract FSDataOutputStream create(Path f, FsPermission permiss原创 2016-05-04 19:39:31 · 4813 阅读 · 1 评论 -
Hadoop小文件合并
1、背景 在实际项目中,输入数据往往是由许多小文件组成,这里的小文件是指小于HDFS系统Block大小的文件(默认128M), 然而每一个存储在HDFS中的文件、目录和块都映射为一个对象,存储在NameNode服务器内存中,通常占用150个字节。 如果有1千万个文件,就需要消耗大约3G的内存空间。如果是10亿个文件呢,简直不可想象。所以在项目开始前, 我们选择一种适合的方案来解决本项目的转载 2016-05-04 20:17:05 · 14396 阅读 · 2 评论 -
HDFS高级操作命令和工具
HDFS高级操作命令和工具 本文讲解HDFS 的一些高级操作功能,以及通过web 方式查看HDFS 信息的方法。1. archive在本地文件系统中,如果文件很少用,但又占用很大空间,可以将其压缩起来,以减少空间使用。在HDFS 中同样也会面临这种问题,一些小文件可能只有几KB 到几十KB,但是在DataNode 中也要单独为其分配一个几十MB 的数原创 2016-05-04 17:41:27 · 3721 阅读 · 0 评论 -
HDFS 文件操作命令格式与注意事项
一、HDFS 文件操作命令格式与注意事项HDFS 文件系统提供了相当多的shell 操作命令,大大方便了程序员和系统管理人员查看、修改HDFS 上的文件。进一步,HDFS 的操作命令和Unix/Linux 的命令名称和格式相当一致,因而学习HDFS 命令的成本也大为缩小。HDFS 的基本命令格式如下:bin/hadoop dfs–cmd 这里cmd 就是具体的命令,记住cmd原创 2016-05-04 16:42:49 · 2611 阅读 · 0 评论 -
HDFS 启动与关闭
一.HDFS 启动与关闭HDFS 和普通的硬盘上的文件系统不一样,是通过Java 虚拟机运行在整个集群当中的,所以当Hadoop 程序写好之后,需要启动HDFS 文件系统,才能运行。HDFS 启动过程如下:1)进入到NameNode 对应节点的Hadoop 安装目录下。2)执行启动脚本: bin/start-dfs.sh 这一脚本会启动NameNode,原创 2016-05-04 16:35:14 · 14723 阅读 · 0 评论 -
HDFS 可靠性的设计实现
1. 安全模式HDFS 刚刚启动时,NameNode 会进入安全模式(safe mode)。处于安全模式的NameNode不能做任何的文件操作,甚至内部的副本创建也是不允许的。NameNode 此时需要和各个DataNode 通信,获得DataNode 保存的数据块信息,并对数据块信息进行检查。只有通过了NameNode 的检查,一个数据块才被认为是安全的。当认为安全的数据块所占的比例达到原创 2016-05-04 16:00:42 · 879 阅读 · 0 评论 -
HDFS 文件操作基础命令
bin/hadoop dfs–cmd 1. cat格式:hadoop dfs-cat URI [URI …]作用:将参数所指示的文件的内容输出到stdout。示例:hadoop dfs -cat hdfs:// nn1.example.com/file1 hdfs:// nn2.example.com/file2hadoop dfs -cat file:/// file3原创 2016-05-04 15:10:37 · 586 阅读 · 0 评论 -
Hadoop 提取KPI 进行海量Web日志分析
Hadoop 提取KPI 进行海量Web日志分析Web日志包含着网站最重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值等。一般中型的网站(10W的PV以上),每天会产生1G以上Web日志文件。大型或超大型的网站,可能每小时就会产生10G的数据量。Web日志分析概述需求分析:KPI指标设计算法模型:Hadoop并行算法架构设计:日志KPI系统架构程序原创 2016-05-12 23:59:32 · 12363 阅读 · 5 评论 -
Hadoop集群WordCount详解
Hadoop集群WorkCount详解MapReduce理论介绍MapReduce处理过程MapReduce代码1.MapReduce 理论介绍1.1 MapReduce编程模型 MapReduce采用”分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是”任务的分解与结果的汇原创 2016-05-07 17:13:34 · 3627 阅读 · 0 评论