Hadoop
Jacob_llz
这个作者很懒,什么都没留下…
展开
-
hadoop面试题答案
1. 下面哪个程序负责 HDFS 数据存储。a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker答案C datanode2. HDfS 中的 block 默认保存几份?a)3 份 b)2 份c)1 份d)不确定答案A默认3分3. 下列哪个程序通常与 NameNode 在一转载 2014-09-09 11:04:53 · 32747 阅读 · 0 评论 -
zookeeper学习之一(简介和安装)
一、zookeeper介绍直接翻译官网的What is zookeeper。Zookeeper是一个关于 配置信息,命名,提供分布式同步和集群service的一站式服务。所有的这些服务或者(他们)别的表现形式经常在应用于分布式系统中。每一次去实现他们,都不可避免的花费大量的工作去修复bugs和(调整)竞争条件。因为实现这类服务很难,所以在一开始就要谨慎的对待他们。否则他们将变得很脆弱和难以转载 2015-06-21 16:08:19 · 600 阅读 · 0 评论 -
zookeeper学习之三(Curator客户端)
Curator框架是最好用,最流行的zookeeper的客户端。它有以下三个优点1.提供了一套非常友好的操作API;2. 提供一些高级特性(包括但不仅限于前篇文章中提到的)的封装3.易测试 maven依赖如下 Xml代码 dependency> groupId>org.apache.curatorgroupId> art转载 2015-06-21 16:16:59 · 763 阅读 · 0 评论 -
大数据hadoop及其他学习的有用资料
http://dongxicheng.org/原创 2015-06-03 13:25:16 · 439 阅读 · 0 评论 -
基于Flume的美团日志收集系统
原文地址:http://tech.meituan.com/mt-log-system-arch.html基于Flume的美团日志收集系统(一)架构和设计美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流。美团的日志收集系统基于Flume设计和搭建而成。《基于Flume的美团日志收集系统》将分两部分给读者转载 2015-06-15 09:45:30 · 3683 阅读 · 0 评论 -
日志分析系统所用知识
flume kafka logdtash storm hdfs hive spark原创 2015-06-29 21:39:46 · 541 阅读 · 0 评论 -
Flume NG 简介及配置实战
目录[-]1、Flume 的一些核心概念:1.1 数据流模型1.2 高可靠性1.3 可恢复性2、Flume 整体架构介绍2.1 Exec source2.2 Spooling Directory Source3、常用架构、功能配置示例3.1 先来个简单的:单节点 Flume 配置3.2 单节点 Flume 直接写入 HDFS3.3 来一个常见架构:多 agent 汇聚写入 HDFS3.3.转载 2015-07-19 14:13:37 · 909 阅读 · 0 评论 -
分布式发布订阅消息系统 Kafka 架构设计 - 目前见到的最好的Kafka中文文章 .
转自:http://www.oschina.net/translate/kafka-design参与翻译(4人):fbm, 飞翔的猴子, Khiyuan, nesteaa感谢这些同志们的辛勤工作,翻译的真不错,目前见到的最好的Kafka中文文章-------------------------------我们为什么要搭建该系统Kafka是一个消息系统,原本开转载 2015-08-01 17:43:21 · 1758 阅读 · 0 评论 -
Twitter Storm: DRPC简介 .
转自:http://xumingming.sinaapp.com/756/twitter-storm-drpc/-------------------------Storm里面引入DRPC主要是利用storm的实时计算能力来并行化CPU intensive的计算。DRPC的storm topology以函数的参数流作为输入,而把这些函数调用的返回值作为topology的输出流。转载 2015-08-01 17:41:13 · 460 阅读 · 0 评论 -
Kafka 安装和测试
1. 简介 kafka (官网地址:http://kafka.apache.org)是一款分布式消息发布和订阅的系统,具有高性能和高吞吐率。 i. 消息的发布(publish)称作producer,消息的订阅(subscribe)称作consumer,中间的存储阵列称作broker。ii. 多个broker协同合作,producer、consumer和broker转载 2015-09-20 17:23:11 · 2157 阅读 · 0 评论 -
hadoop集群配置之hive1.2.0安装部署(远程mysql)
hadoop的版本是2.6.0根据hive的源数据不同分为三种模式 1、内嵌模式,使用自带的derby 2、本地独立模式,本地mysql库 3、远程模式,远程mysql库这里主要将第三种模式#假设hadoop2.6.0已经正常启动首先下载hive-1.2.0版本,下载地址hive官方下载然后登陆root修改环境变量,转载 2016-03-06 21:40:36 · 578 阅读 · 0 评论 -
zookeeper学习之二(高级特性)
一、三个概念 1.CreateMode在create的时候可以设置znode的类型主要有四种:PERSISTENT (持续的,相对于EPHEMERAL,不会随着client的断开而消失)PERSISTENT_SEQUENTIAL(持久的且带顺序的)EPHEMERAL (短暂的,生命周期依赖于client session)EPHEMERAL_SEQUENTIAL (转载 2015-06-21 16:10:57 · 1704 阅读 · 0 评论 -
HBase配置性能调优
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer转载 2015-05-20 10:06:44 · 371 阅读 · 0 评论 -
hadoop 2.5 伪分布安装 -- fedora20安装hadoop-2.5.1
最新的hadoop2.5 安装目录做了一定修改,安装变得稍微简单一点首先安装准备工具 $ sudo apt-get install ssh $ sudo apt-get install rsync配置ssh $ ssh localhostIf you cannot ssh to localhost without a passphrase, execute th转载 2014-10-21 17:13:47 · 1930 阅读 · 1 评论 -
执行start-dfs.sh后,datenode没有启动
查看日志如下: 2014-06-18 20:34:59,622 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for block pool Block pool (Datanode Uuid unassigned) service to localhost/127.0.0.1:900转载 2014-10-29 18:43:54 · 8820 阅读 · 1 评论 -
hadoop2.4.1完全分布式安装
本文(亲测实录)主要列出在安装hadoop 2.4.1过程中各个文件配置情况,其他步骤请参考网络其他资源进行操作 1、JDK安装和SSH互信(略过) 2、各节点IP和hostname如下(各节点需配置)[hadoop@master ~]$ cat /etc/hosts 127.0.0.1 localhost100.12.56.221 slave-1100.1转载 2014-10-30 11:17:21 · 1750 阅读 · 0 评论 -
Hadoop-2.5.1集群安装配置笔记 .
Hadoop-2.5.1集群安装配置笔记1.环境1.1.虚拟机准备3台虚拟机,安装Centos 64-bit操作系统,采用最小安装。(本来想多跑几台虚拟机,但本人笔记本电脑内存有限,最多只能同时跑3个虚拟机)虚拟机一律配置静态IP地址,配置域名解析,各虚拟机时间同步。192.168.17.100 nameNode192.168.17.10转载 2014-10-21 16:32:27 · 2956 阅读 · 0 评论 -
hadoop 教程
http://www.iteblog.com/archives/928 http://down.51cto.com/data/1437000原创 2014-08-14 11:48:23 · 619 阅读 · 0 评论 -
Hadoop常见错误及解决办法汇总
错误一:java.io.IOException: Incompatible clusterIDs 时常出现在namenode重新格式化之后' V0 h# C5 a8 o+ ^1 n* w- t k( ]$ }+ p6 d G2014-04-29 14:32:53,877 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Ini转载 2015-01-12 22:55:41 · 37514 阅读 · 2 评论 -
HBase 默认配置
HBase 默认配置该文档是用hbase默认配置文件生成的,文件源是 hbase-default.xml (因翻译需要,被译者修改成中文注释).hbase.rootdir这 个目录是region server的共享目录,用来持久化Hbase。URL需要是'完全正确'的,还要包含文件系统的scheme。例如,要表示hdfs中的 '/hbase'目录,namenode 运行在n转载 2015-05-02 23:25:19 · 587 阅读 · 0 评论 -
Hadoop 2.4.1+HBase 0.98.6.1 分布式安装 .
A: 先配置Hadoop2.4.1的集群环境参考:http://blog.csdn.net/wind520/article/details/38317937B:配置HBase参考:http://abloz.com/hbase/book.html#quickstart 1:下载 wget http://mirrors.hust.edu.cn/apache/hbase/sta转载 2014-12-24 11:33:14 · 1122 阅读 · 0 评论 -
HDFS详解
【一】HDFS简介HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。----------------转载 2015-05-20 09:50:25 · 680 阅读 · 0 评论 -
hadoop笔记本
hadoop笔记本海量数据 那些年Google公开的大数据领域论文 大数据量,海量数据 处理方法总结 布隆过滤器应用 Google Dremel 原理 – 如何能3秒分析1PB Google Spanner原理- 全球级的分布式数据库 悉数那些“巨型”数据仓库 Hadoop在业界的使转载 2015-05-20 09:58:52 · 500 阅读 · 0 评论 -
Hbase 热点(数据倾斜)问题解决方案---rowkey散列和预分区设计
Hbase的表会被划分为1....n个Region,被托管在RegionServer中。Region二个重要的属性:Startkey与EndKey表示这个Region维护的rowkey的范围,当我们要读写数据时,如果rowkey落在某个start-end key范围内,那么就会定位到目标region并且读写到相关的数据。 默认情况下,当我们通过hbaseAdmin指定TableDescrip...转载 2018-03-10 21:35:19 · 437 阅读 · 0 评论