![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop学习历程
文章平均质量分 77
deyu1982
这个作者很懒,什么都没留下…
展开
-
Cloudera Manager 5 和 CDH5 本地(离线)安装指南(Hadoop集群搭建)
转载请注明出处:http://www.wangyongkui.com/hadoop-cdh5。 系统环境 4台联想R510服务器,其中master节点4核心、8GB,其它节点双核心、4GB。 网卡:100M。 共有硬盘6TB。 网络环境内网。 Centos6.5 x64(安装系统时尽量把开发包安装齐全,另master节点需要Mysql可以在安装系统时勾选)。 准备工作转载 2014-12-06 01:53:14 · 925 阅读 · 0 评论 -
Storm学习1-环境安装
学习storm安装过程 1.首先安装jdk配置jdk环境 rpm -ivh jdk1.7.0_71.rpm 配置环境变量 JAVA_HOME=/usr/java/jdk1.7.0_71 PATH=$PATH:$JAVA_HOME/bin CLASSPATH=.:JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar expot PATH J原创 2014-12-11 10:00:01 · 415 阅读 · 0 评论 -
HDFS简介
http://www.cnblogs.com/forfuture1978/archive/2010/03/14/1685351.html 1.1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。 不同于普通文件系统的是转载 2014-12-10 15:19:57 · 308 阅读 · 0 评论 -
SequenceFile与MapFile
public static String uri ="hdfs://192.168.1.201:9100"; public static String []data ={ "one, two", "three,four", "five,six", "seven,eight", "nine,ten"原创 2014-12-10 16:39:37 · 434 阅读 · 0 评论 -
Hadoop HDFS之SequenceFile和MapFile
来源:http://blog.csdn.net/keda8997110/article/details/8514908 Hadoop的HDFS和MapReduce子框架主要是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗磁盘空间(每一个小文件占用一个Block,HDFS默认block大小为64M)。解决办法通常是选择一个容器,将这些小文件组织起来统一存转载 2014-12-10 15:12:38 · 301 阅读 · 0 评论 -
hadoop8-序列化
序列化 1)序列化和反序列化的概念 序列化是将结构化对象转换成为字节流以便于进行网络传输或写入持久存储的过错 反序列化是将字节流转换成为一系列结构化对象的过程 序列化的用途 1)作为一种数据持久化格式 2)作为一种通信的数据格式 3)作为一种数据拷贝或者克隆机制 序列化的特征:紧凑/快速/可扩展/互操作 java的序列化和反序列化 1)创建一个对象实现Serializable原创 2014-12-10 13:03:17 · 274 阅读 · 0 评论 -
hadoop学习7-
总结: 1)常见的数据压缩算法 DEFLATE bzip2 gzip snappy 2)使用native压缩库算法 snappy 安装 libsnappy.so libhadoop.so gzip deflate 安装zlib libhadoop.so 3)CompressCodec进行操作 压缩: createOutputStream 来获得 CompreesionOutputS原创 2014-12-10 12:23:48 · 305 阅读 · 0 评论 -
hadoop6-常见压缩算法
常见的数据压缩算法 Deflate gzip bzip2 LZO LZ4 Snappy LZO和LZ4算法已经不再hadoop1.x 1)DEFLATW是同时使用LZ77算法和哈夫曼编码的一个无损数据压缩算法,源代码可以在zlib库中找到 gzip是以DEFLATW算法为基础扩展出来的一种算法 2)压缩算法都是空间和时间的转换,更快的压缩时间还是更小的压缩比,可以通过参数来制定原创 2014-12-10 10:20:05 · 762 阅读 · 0 评论 -
MapReduce关键流程代码分析
http://blog.csdn.net/zhangxinfa/article/details/7477501 我这里主要是结合代码来介绍MapR的一些关键流程,咱们需要将XXX系统移植到hadoop系统,虽然之前也对Hadoop的工作原理及使用方法有了一些了解,但真正开工的时候,还是会出现一些大大小小的问题,主要是对Hadoop的一些关键流程的实现不够清楚,因此将MapR的某些代码又粗转载 2014-12-10 15:14:23 · 354 阅读 · 0 评论 -
hadoop学习5-HDFS API学习
复习上一次课总结 1)HDFS读过程 DistributedFileSystem =>FSDataInputStream =>DFSClient.open(RPC通信机制)=>NN.open 2)HDFS写过程 DistributeFileSystem => FSDataOutputStream => DFSClient.create(RPC通信机制)=>NN.create原创 2014-12-06 22:40:36 · 361 阅读 · 0 评论 -
Hadoop学习4-HDFS详解1(SNN、副本放置策略)
总结上一次学习: 1)搭建hdfs集群可能会出现namenode 、datanode进程会挂掉? 需要查看logs的异常信息在来看 如果namenode没有正常启动,原因可能是没有正确的格式化 如果datanode没有启动,原因可能是namespaceId不一样 正确步骤: rm -rf 本地hdfs存储目录 执行 ./hadoop namenode -format 执行./sta原创 2014-12-06 15:08:27 · 799 阅读 · 0 评论 -
hadoop学习3-MapReduce的集群安装与部署
复习上一次学习 1)HDFS的配置信息 core-site.xml hdfs-site.xml 2)HDFS集群模式:独立模式、伪分布式模式、分布式模式 3)HDFS Shell命令和启动 FsShell、dfsadmin管理命令、 fsck检查磁盘健康状态 、balancer磁盘均衡器、archive 归档 小文件多将导致namenode过大 4)hadoop1.x与hadoop原创 2014-12-06 13:13:39 · 448 阅读 · 0 评论 -
Hadoop学习笔记2-HDFS的安装与部署以及HDFS Shell命令
总结上一次: 1)hadoop是什么? 包含3个组件 HDFS、MapReduce、Common组件 2)HDFS的架构读写操作 包含两个重要的节点NameNode(数据块信息)NataNode 数据块 3) MapReduce框架 input map分 shuffle reduce 汇总 output 4)hadoop的生态系统 hbase hive pig oozie zookeep原创 2014-12-06 00:10:18 · 1346 阅读 · 0 评论 -
Hadoop学习笔记1
1.Hadoop来源 hadoop来源于Google核心技术。 分布式基础设施 :GFS、Chubby和Protocol Buffer 分布式大规模数据处理:MapReduce、Sawzall 分布式数据库:BigTable和Sharding BitTable对应HBase原创 2014-12-05 23:03:42 · 550 阅读 · 0 评论 -
storm学习2-storm生命周以及相关配置详解
将代码拷贝到/home 执行 ./storm jar /home/lifeCycle.jar cn.itcast.storm.topology.TopoMain 使用./storm jar来执行jar包,后面跟上 jar目录 以及jar中对应的main文件 查看启动情况,./storm list 同时在slave节点jps会发现,多出来worker进程,每个Supervisor上运行若干个w原创 2014-12-11 14:33:32 · 395 阅读 · 0 评论