![](https://img-blog.csdnimg.cn/2020020610263520.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop
Hadoop
得过且过1223
这个作者很懒,什么都没留下…
展开
-
Hadoop 安装LZO压缩、创建LZO索引
编译LZOhadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。Hadoop支持LZO环境准备maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像)gcc-c++zlib-develautoconfautomakelibtool通过yum安装即可,yum -y install gcc-c++ lzo-devel zlib-devel autoconf原创 2020-07-20 15:13:35 · 254 阅读 · 0 评论 -
hadoop压缩方式deflate、gzip、bzip2、lzo、snappy
关于压缩压缩会减少磁盘空间、磁盘IO以及网络IO的负担,但会增加CPU负担在任意的MapReduce阶段都可以启动压缩使用原则运算密集型的job,少用压缩IO密集型的Job,多用压缩MR支持的压缩压缩格式Hadoop集成算法扩展名是否可splic更换压缩格式是否需要修改代码DEFLATE直接使用DEFLATE.deflate否不需要修改Gzip直接使用DEFLATE.gz否不需要修改bzip2直接使用bzip2.bz2是原创 2020-07-20 13:35:22 · 2100 阅读 · 0 评论 -
hadoop基准性能测试
HDFS写性能测试内容:向HDFS集群写10个128m的文件hadoop jar /opt/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.2-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB20/07/17 08:09:34 INFO fs.TestDFSIO: ----- TestDFSIO ----- : write20/07/17原创 2020-07-17 19:03:26 · 279 阅读 · 0 评论 -
MR知识点
MapReduce中常用组件Mapper :map阶段核心处理逻辑Reducer : reducer阶段核心逻辑处理MR 程序必须指定一个输入目录,一个输出目录InputFormat 输入格式FileInputFormat :普通文件DBInputFormat : 处理数据库中的数据SequnceFileInputFileFormat :SequeceFile (hadoop提供的一种文件格式)RecodeReader: 记录读取器,负责从输入格式中读取数据,读取后封原创 2020-07-10 22:13:41 · 285 阅读 · 0 评论 -
HDFS知识点.md
版本 hadoop-2.7.2HDFS 运行模式core-default.xml 中 fs.defaultFs本地模式 fs,defaultFs=file:/// (默认)分布式模式 fs.defaultFs=hdfs://MR运行模式core-default.xml 中 fs.defaultFs本地模式 mapreduce.framework.name=local (默认)分布式模式 mapreduce.framework.name=yarn本地模式指在本地运行hadoop 配置文件组原创 2020-07-10 22:13:08 · 145 阅读 · 0 评论 -
6.Hadoop_MapReduce计算框架介绍、架构原理、yarn资源管理
MapReduce介绍MapReduce分为2部分:MapTask、ReduceTaskMapTask会把数据映射成一个k,v格式的中间数据集。每组相同key组成的数据(一般情况下)会并发调用reduce方法,方法内迭代这组数据进行计算(类似sql)MapTask数量:对Block Spilt(切片),每一个Spilt(片)会分配一个MapTaskReduceTask数量:一般情况下 相...原创 2020-02-11 16:03:57 · 269 阅读 · 0 评论 -
1.hadoop基本介绍、HDFS架构模型、原理解析
hadoop介绍官方网站: http://hadoop.apache.org/官方网站(老版本): https://hadoop.apache.org/old/hadoop基于分布式的存储(HDFS)计算(MapReduce)的开源框架数。hadoop 基于lucene(倒排索引)框架 。小知识点: 第一个分布式搜索开源框架 nutch 。技术思想Google一篇论文: Opensta...原创 2020-02-08 17:36:02 · 1792 阅读 · 0 评论 -
5.Hadoop_HDFS_Java API
准备工作解压 hadoop-2.6.5.tar.gz(windows版本) 和hadoop-2.6.5-src.tar.gz解压后的hadoop-2.6.5中的jar包 存入同一文件夹下,用于eclipse 外部引用把解压后的 hadoop-2.6.5\bin\hadoop.dll 拷贝到c:\windows\system32\ 文件夹中配置环境变量HADOOP_HOME地...原创 2020-02-05 21:02:09 · 136 阅读 · 0 评论 -
4.Hadoop_HDFS2.x_高可用搭建
架构说明HDFS 2.x HAHDFS High Availability Using the Quorum Journal Manager搭建说明虚拟机NN-1NN-2DNZKZKFCJNNnode01***node02*****node03***node04**搭建步骤官方文档: ...原创 2020-02-05 20:58:58 · 395 阅读 · 0 评论 -
3.Hadoop_HDFS1.x_全分布式搭建
环境CentOS 6.5Apache Hadoop 2.6.5JDK 7 (Hadoop3.0以上需要JDK8)hadoop-2.6.5.tar.gz准备工作准备4台虚拟机 node01、node02、node03、node04检查虚拟机时间是否同步检查/etc/sysconfig/network 中 HOSTNAME是否与上面一致检查/etc/hosts 文件是...原创 2020-02-05 20:57:44 · 83 阅读 · 0 评论 -
2.Hadoop_HDFS1.x_伪分布式搭建
环境CentOS 6.5Apache Hadoop 2.6.5JDK 7 (Hadoop3.0以上需要JDK8)hadoop-2.6.5.tar.gz搭建步骤参考官方文档: https://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distrib...原创 2020-02-05 20:55:42 · 238 阅读 · 0 评论