hadoop
文章平均质量分 74
Next__One
学生
展开
-
hadoop 经典入门wordcount
/** * hadoop经典入门wordcount 主要有三大步 1.编写mapper函数 2.编写reducer函数 3.配置 */public class WordCount {/*** mapper类* * 这些泛型继承自hadoop自定义的序列化框架Writable* Hadoop使用自己的序列化框架以减少集群间,网络流量提高性能 也可以在原创 2017-08-24 20:54:19 · 407 阅读 · 0 评论 -
hadoop2.7.3 hdfs Java API操作
/** * @author root *测试hadoop hdfs 的客户端操作 *项目创建只需要导入hadoop的hadoop-2.7.3-bin\share\hadoop下面所有jar包就可以了 *也可以使用maven依赖 *hadoop-core */public class TestHDFS { /** * hadoop URL */ pu原创 2017-08-27 18:34:54 · 2217 阅读 · 0 评论 -
hadoop2.7.3 hbase 1.3.1 Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
使用hbase客户端连接集群时发现这个错误: 说不能执行本地的winutils.exe,我是在windows上连接集群的,确实没有设置hadoop的环境变量。而且hadoop2.7.3的bin下也没有winutils.exe这个可执行文件。 经百度发现:是少了hadoop-common-2.2.0-bin这个包 这是下载地址:https://github.com/srccodes/hadoop原创 2017-09-09 17:40:18 · 457 阅读 · 0 评论 -
深入分析Parquet列式存储格式
Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。列式存储列式存储和行式存储相比有哪些优势呢?可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使用更高效的压缩编转载 2017-11-09 09:40:17 · 469 阅读 · 0 评论 -
深刻理解HDFS工作机制
一个技术的工作机制是灵活运用和快速解决问题的根本方法,也是唯一途径。对于HDFS来说除了要明白它的应用场景和用法以及通用分布式架构之外更重要的是理解关键步骤的原理和实现细节。在看这篇博文之前需要对HDFS以及分布式系统有一些了解。请参考这篇博客。本篇博文首先对HDFS的重要特性和使用场景做一个简要说明,之后对HDFS的数据读写、元数据管理以及NameNode、SecondaryNamenode的工转载 2017-11-13 21:06:12 · 532 阅读 · 0 评论 -
Cloudera的CDH和Apache的Hadoop的区别
Cloudera的CDH和Apache的Hadoop的区别 目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)、Hortonworks版本(Hortonworks Data Platf转载 2017-11-21 15:01:02 · 724 阅读 · 0 评论