Hadoop学习历程
文章平均质量分 77
deyu1982
这个作者很懒,什么都没留下…
展开
-
Cloudera Manager 5 和 CDH5 本地(离线)安装指南(Hadoop集群搭建)
转载请注明出处:http://www.wangyongkui.com/hadoop-cdh5。系统环境4台联想R510服务器,其中master节点4核心、8GB,其它节点双核心、4GB。网卡:100M。共有硬盘6TB。网络环境内网。Centos6.5 x64(安装系统时尽量把开发包安装齐全,另master节点需要Mysql可以在安装系统时勾选)。准备工作转载 2014-12-06 01:53:14 · 947 阅读 · 0 评论 -
Storm学习1-环境安装
学习storm安装过程1.首先安装jdk配置jdk环境rpm -ivh jdk1.7.0_71.rpm配置环境变量JAVA_HOME=/usr/java/jdk1.7.0_71PATH=$PATH:$JAVA_HOME/binCLASSPATH=.:JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jarexpot PATH J原创 2014-12-11 10:00:01 · 434 阅读 · 0 评论 -
HDFS简介
http://www.cnblogs.com/forfuture1978/archive/2010/03/14/1685351.html1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。 不同于普通文件系统的是转载 2014-12-10 15:19:57 · 334 阅读 · 0 评论 -
SequenceFile与MapFile
public static String uri ="hdfs://192.168.1.201:9100"; public static String []data ={ "one, two", "three,four", "five,six", "seven,eight", "nine,ten"原创 2014-12-10 16:39:37 · 451 阅读 · 0 评论 -
Hadoop HDFS之SequenceFile和MapFile
来源:http://blog.csdn.net/keda8997110/article/details/8514908Hadoop的HDFS和MapReduce子框架主要是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗磁盘空间(每一个小文件占用一个Block,HDFS默认block大小为64M)。解决办法通常是选择一个容器,将这些小文件组织起来统一存转载 2014-12-10 15:12:38 · 325 阅读 · 0 评论 -
hadoop8-序列化
序列化1)序列化和反序列化的概念序列化是将结构化对象转换成为字节流以便于进行网络传输或写入持久存储的过错反序列化是将字节流转换成为一系列结构化对象的过程序列化的用途1)作为一种数据持久化格式2)作为一种通信的数据格式3)作为一种数据拷贝或者克隆机制序列化的特征:紧凑/快速/可扩展/互操作java的序列化和反序列化1)创建一个对象实现Serializable原创 2014-12-10 13:03:17 · 294 阅读 · 0 评论 -
hadoop学习7-
总结:1)常见的数据压缩算法DEFLATE bzip2 gzip snappy2)使用native压缩库算法snappy 安装 libsnappy.so libhadoop.sogzip deflate 安装zlib libhadoop.so3)CompressCodec进行操作压缩: createOutputStream 来获得 CompreesionOutputS原创 2014-12-10 12:23:48 · 325 阅读 · 0 评论 -
hadoop6-常见压缩算法
常见的数据压缩算法Deflategzipbzip2LZOLZ4SnappyLZO和LZ4算法已经不再hadoop1.x1)DEFLATW是同时使用LZ77算法和哈夫曼编码的一个无损数据压缩算法,源代码可以在zlib库中找到gzip是以DEFLATW算法为基础扩展出来的一种算法2)压缩算法都是空间和时间的转换,更快的压缩时间还是更小的压缩比,可以通过参数来制定原创 2014-12-10 10:20:05 · 790 阅读 · 0 评论 -
MapReduce关键流程代码分析
http://blog.csdn.net/zhangxinfa/article/details/7477501我这里主要是结合代码来介绍MapR的一些关键流程,咱们需要将XXX系统移植到hadoop系统,虽然之前也对Hadoop的工作原理及使用方法有了一些了解,但真正开工的时候,还是会出现一些大大小小的问题,主要是对Hadoop的一些关键流程的实现不够清楚,因此将MapR的某些代码又粗转载 2014-12-10 15:14:23 · 379 阅读 · 0 评论 -
hadoop学习5-HDFS API学习
复习上一次课总结1)HDFS读过程DistributedFileSystem =>FSDataInputStream =>DFSClient.open(RPC通信机制)=>NN.open2)HDFS写过程DistributeFileSystem => FSDataOutputStream => DFSClient.create(RPC通信机制)=>NN.create原创 2014-12-06 22:40:36 · 382 阅读 · 0 评论 -
Hadoop学习4-HDFS详解1(SNN、副本放置策略)
总结上一次学习:1)搭建hdfs集群可能会出现namenode 、datanode进程会挂掉?需要查看logs的异常信息在来看如果namenode没有正常启动,原因可能是没有正确的格式化如果datanode没有启动,原因可能是namespaceId不一样正确步骤:rm -rf 本地hdfs存储目录执行 ./hadoop namenode -format执行./sta原创 2014-12-06 15:08:27 · 822 阅读 · 0 评论 -
hadoop学习3-MapReduce的集群安装与部署
复习上一次学习1)HDFS的配置信息 core-site.xml hdfs-site.xml2)HDFS集群模式:独立模式、伪分布式模式、分布式模式3)HDFS Shell命令和启动 FsShell、dfsadmin管理命令、 fsck检查磁盘健康状态 、balancer磁盘均衡器、archive 归档 小文件多将导致namenode过大4)hadoop1.x与hadoop原创 2014-12-06 13:13:39 · 475 阅读 · 0 评论 -
Hadoop学习笔记2-HDFS的安装与部署以及HDFS Shell命令
总结上一次:1)hadoop是什么? 包含3个组件 HDFS、MapReduce、Common组件2)HDFS的架构读写操作 包含两个重要的节点NameNode(数据块信息)NataNode 数据块3) MapReduce框架 input map分 shuffle reduce 汇总 output4)hadoop的生态系统 hbase hive pig oozie zookeep原创 2014-12-06 00:10:18 · 1363 阅读 · 0 评论 -
Hadoop学习笔记1
1.Hadoop来源 hadoop来源于Google核心技术。 分布式基础设施 :GFS、Chubby和Protocol Buffer 分布式大规模数据处理:MapReduce、Sawzall 分布式数据库:BigTable和Sharding BitTable对应HBase原创 2014-12-05 23:03:42 · 566 阅读 · 0 评论 -
storm学习2-storm生命周以及相关配置详解
将代码拷贝到/home执行 ./storm jar /home/lifeCycle.jar cn.itcast.storm.topology.TopoMain 使用./storm jar来执行jar包,后面跟上 jar目录 以及jar中对应的main文件查看启动情况,./storm list同时在slave节点jps会发现,多出来worker进程,每个Supervisor上运行若干个w原创 2014-12-11 14:33:32 · 414 阅读 · 0 评论