Hadoop
文章平均质量分 89
moxiaomomo
虚怀若谷,大爱无疆
展开
-
【Hbase】 hbase shell基础和常用命令详解
HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。1. 简介HBase是一个分布式的、面向列的开源数据库,源于g转载 2013-10-16 13:39:02 · 1434 阅读 · 0 评论 -
使用常用工具测试HBase应用
虽然业界采用Apache HBase来构建终端用户应用的范围越来越多,但是许多这种应用并没有经过良好的测试。通过这篇文章,你可以了解到有关这方面的一些容易实现的测试方法。我们首先以JUnit为例, 然后是Mockito 和Apache MRUnit, 接着会使用HBase的一个微型集群来做集成测试。(HBase自身的代码也是通过一个微型的集群来测试的, 所以对于上游的应用为什么不能这样测试翻译 2013-11-19 08:47:30 · 6416 阅读 · 0 评论 -
【Hadoop】MapReduce使用combiner优化性能
当MapReduce模型中,reduce执行的任务为统计分类类型的值总量或去重后的数量,或最大值最小值时,可以考虑在Map输出后进行combine操作;这样可以减少网络传输带来的开销,同时减轻了reduce任务的负担。Combine操作是运行在每个节点上的,只会影响本地Map的输出结果;Combine的输入为本地map的输出结果(一般是数据在溢出到磁盘之前,可以减少IO开销),其输出则作为原创 2013-11-12 21:20:54 · 7519 阅读 · 0 评论 -
【Hadoop】图解Hadoop架构
这是针对目前测试环境中Hadoop集群架构的一个简单的总结,下图用图来简单表现:原创 2013-11-14 00:01:00 · 19939 阅读 · 2 评论 -
【hadoop】Hadoop的本地库(Native Libraries)介绍
原文:http://501565246-qq-com.iteye.com/blog/1930771Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通过本地库,Hadoop可以更加高效地执行某一些操作。 目前在Hadoop中,本地库应用在文件的压缩上面: · zlib转载 2014-01-23 17:04:08 · 2330 阅读 · 0 评论 -
【hadoop】关于ERROR security.UserGroupInformation
14/01/23 20:49:47 ERROR security.UserGroupInformation: PriviledgedActionException as:hadoop (auth:SIMPLE) cause:java.io.IOException: Failed on local exception: com.google.protobuf.InvalidProtocolBuffe原创 2014-01-23 20:59:13 · 12256 阅读 · 4 评论 -
hadoop-spark错误问题总结(二)
1.Caused by: java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce$class具体错误日志:Caused by: java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce$class at org.elasticsearc原创 2017-10-16 14:48:13 · 5917 阅读 · 6 评论 -
基于kubernetes1.11安装Harbor私有镜像库(二)
简介Trafik,和nginx-ingress类似,都是用于微服务集群的HTTP/HTTPS代理转发和负载均衡的。相对nginx-ingress来说, Traefik部署更简单,其反向代理和负载均衡功能更直接高效。本节主要说明如何在kubernetes1.11上安装traefik,及配置https转发的流程。安装Traefik下载源安装包[root@kubemaster DevOp...原创 2018-10-21 13:47:43 · 588 阅读 · 0 评论 -
基于kubernetes1.11安装Harbor私有镜像库(三)
简介上一篇说明了如何配置运行traefik服务,本篇将会说明如何让traefik支持https请求的转发。配置traefik-HTTPS用ssl证书创建secret这里忽略关于如何创建ssl证书的过程,你可以创建新的或使用已有的ssl证书。假设现在已经有ssl.crt,ssl.key文件,并保存在host目录/etc/k8s/ssl/下。k8s中创建一个secret资源,[root...原创 2018-10-21 16:50:56 · 446 阅读 · 0 评论 -
HDFS架构(二)
接上一篇译文:HDFS架构(一)副本放置之第一步由于HDFS的可靠性和高性能,副本位置的选择是严格的。经过优化的副本放置可以让HDFS区别于其他分布式文件系统,而该项特性需要不断的调优和实践。副本放置采用机架感知策略目的是为了提高数据的可靠性,可用性和网络带宽利用率。 采用这种策略的短期目标是在生产系统上进行验证,同时了解更多关于它的行为,并建立一系列测试来研究更复杂的策略。翻译 2013-11-17 13:01:47 · 4057 阅读 · 0 评论 -
HDFS架构(一)
HDFS架构简介Hadoop Distributed File System (HDFS)是一种运行于商业硬件上的分布式文件系统。它与现在流行的一些分布式文件系统有很多相似的地方。 而其与其他系统的区别之处又显得极其重要。HDFS是一个容错性高,为应用于廉价硬件之上而设计。HDFS提供了对应用数据的高吞吐量能力,适合大数据集应用场景。HDFS降低了流式访问文件系统数据的PO翻译 2013-11-03 17:40:35 · 4357 阅读 · 0 评论 -
【HBase】org.apache.hadoop.hbase包及其类的说明
源文档链接:http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/package-summary.html接口概要 Interface说明CellHBase中的存储单元包括以下字段: 1) row 2) column family 3) column q翻译 2013-10-17 19:52:37 · 12953 阅读 · 0 评论 -
【HBase】Rowkey设计
本章将深入介绍由HBase的存储架构在设计上带来的影响。如何设计表、row key、column等等,尽可能地使用到HBase存储上的优势。Key设计HBase有两个基础的主键结构:row key和column key。它们分别用来表征存储的数据和数据的排序顺序。以下的几节将讨论如何通过key设计解决存储设计中发现的一些问题。概念相比于物理存储,首先谈谈表的转载 2013-10-24 10:36:52 · 31511 阅读 · 5 评论 -
【HBase】提升HBase写性能
本文主要介绍软件层面的性能调优。故,在此之前,请检查硬件状况。硬盘推荐SSD,一般SATA即可。网络千兆以上。可以安装Ganglia等工具,检查各节点的各硬件的运作状态:CPU,Memo,网络等等。 调整参数入门级的调优可以从调整参数开始。投入小,回报快。 1. Write Buffer Size快速配置Java代码转载 2013-10-25 09:15:28 · 1890 阅读 · 0 评论 -
【HBase】org.apache.zookeeper.client.ZooKeeperSaslClient: SecurityException: java.lang.SecurityExcepti
eclipse连接HBase时,总是提示如下错误:WARN org.apache.zookeeper.client.ZooKeeperSaslClient: SecurityException: java.lang.SecurityException: 无法定位登录配置 occurred when trying to find JAAS configuration.查了下资料,没有什么收获原创 2013-10-19 16:43:57 · 5798 阅读 · 0 评论 -
【Hadoop】关于hadoop正常启动而无法正常关闭
在1个master和2个slave节点的集群上,hadoop可以正常格式化:hadoop@hadoop1:~/hadoop/conf$ hadoop namenode -format13/10/21 12:02:15 INFO namenode.NameNode: STARTUP_MSG: /***********************************************原创 2013-10-21 14:29:14 · 7164 阅读 · 0 评论 -
【HBase】关于包org.apache.hadoop.hbase.client
Package org.apache.hadoop.hbase.client提供HBase客户端接口参考: DescriptionInterface概要 InterfaceDescriptionAttributes HConnection创建于集群间的连接.翻译 2013-10-29 00:26:41 · 26465 阅读 · 0 评论 -
【Hadoop】完全分布式添加新节点
添加节点常规步骤:1.新节点运行环境与用户环境配置和其他datanode一样,确保关闭firewall, 新增hadoop用户;配置ssh使用户hadoop从namenode免密码登录新节点,也可以从新节点登录倒namenode;配置与namenode一致的jdk环境;添加namenode的ip(在/etc/hosts文件中定义ip与hostname的映射)。原创 2013-10-28 17:24:07 · 6576 阅读 · 0 评论 -
【HBase】ERROR master.HMasterCommandLine: Master not running
Hbase目录下lib文件夹中的hadoop-core-xxx.jar需要替换为与当前hadoop版本一致的jar包,此包可直接从hadoop目录中拷贝过来。否则,在调用start-hbase.sh或stop-hbase.sh时会报此异常: ERROR master.HMasterCommandLine: Master not running.原创 2013-10-29 11:08:46 · 4926 阅读 · 0 评论 -
基于kubernetes1.11安装Harbor私有镜像库(四)
简介本节主要说明如何安装,配置及运行harbor私有库。获取Harbor 1.6源git clone -b release-1.6.0 https://github.com/goharbor/harbor.git修改harbor.cfg# cd harbor/make# vim harbor.cfg# 主要修改以下几项:hostname = hub.example.com # ...原创 2018-10-21 18:32:29 · 452 阅读 · 0 评论