hadoop
奋斗的周周
专注大数据,人工智能
展开
-
Snappy安装
1. 功能说明使用snappy压缩来提升mapreduce和hbase的性能。其实就是用CPU换IO吞吐量和磁盘空间。配置并使用snappy有如下几点要求:首先需要hadoop集群的native库已经收到编译好,并且添加了对snappy的支持。编译hadoop源码之前安装了snappy并且编译时指定-Drequire.snappy参数。(我使用的版本是hadoop-2.5.0-cdh5....转载 2019-11-17 11:26:25 · 3123 阅读 · 0 评论 -
LZO的安装
hadoop-lzo的安装:----------------------1.本地库的安装 获取到安装包lzo-2.10.tar.gz 后 执行下列命令: tar -zxvf lzo-2.06.tar.gz -C /opt/tool/ cd /opt/tool/lzo-2.06/ ...转载 2019-11-17 11:21:11 · 1627 阅读 · 0 评论 -
Hadoop(四) MapReduce 原理
目录MapReduce的核心思想Hadoop MapReduceInputFormatTextInputFormatKeyValueTextInputFormatNLineInputFormat自定义InputFormatJob提交过程FileInputFormat切片大小的参数配置获取切片信息APIMapTask的个数Partitioner默...原创 2019-11-16 23:42:23 · 997 阅读 · 0 评论 -
Hadoop(五) HDFS 序列化 压缩 存储文件类型
目录Hadoop 序列化Hadoop序列化定义步骤示例Hadoop 压缩为什么要在Hadoop中引入压缩Hadoop 支持的压缩类别各种压缩方式详解Gzip压缩lzo压缩snappy压缩bzip2压缩压缩参数配置存储文件类型SequenceFileSequenceFile简介SequenceFile 文件的结构SequenceFi...原创 2019-11-17 11:58:53 · 423 阅读 · 0 评论 -
Hadoop(三) HDFS 使用
目录准备工作HDFS API的使用org.apache.hadoop.fs.FileSystemorg.apache.hadoop.fs.Pathorg.apache.hadoop.fs.FsStatusorg.apache.hadoop.fs.FileStatusorg.apache.hadoop.fs.FSDataInputStreamorg.apache.ha...原创 2019-11-16 07:52:44 · 933 阅读 · 0 评论 -
Hadoop(二) HDFS 底层原理解析
目录HDFS概念HDFS优缺点优点缺点HDFS 架构/角色Client:客户端NameNode:master,它是一个主管、管理者DataNodeSecondary NameNodehdfs启动过程启动脚本分析HDFS启动过程--源码分析HDFS 文件块大小HDFS的元数据管理NameNode 元数据存储机制查看编辑日志hdfs...原创 2019-11-14 23:18:49 · 1715 阅读 · 0 评论 -
Hadoop(一) 简介 集群搭建
目录Hadoop简介1.1Hadoop产生的背景1.2 Hadoop的优势1.3 Hadoop组成1.4 大数据技术生态体系图Hadoop集群安装linux的集群配置: 参照linux集群的配置安装相应的软件hadoop集群的配置修改以下配置文件ssh免密登陆的设置拷贝hadoop的配置文件到其他结点格式化namenodeHadoop简...原创 2019-03-27 11:59:08 · 362 阅读 · 0 评论