BigData
kraussyin
这个作者很懒,什么都没留下…
展开
-
Hadoop管理员的十个最佳实践
前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。在解决问题的过程中,有时需要翻源码,有时会向同事、网友请教,遇到复杂问题则会通过mail list向全球各地Hado转载 2014-07-28 15:14:47 · 1813 阅读 · 0 评论 -
分布式应用框架Akka快速入门
转载请注明出处:http://blog.csdn.net/jmppok/article/details/17264495本文结合网上一些资料,对他们进行整理,摘选和翻译而成,对Akka进行简要的说明。引用资料在最后列出。1.什么是AkkaAkka 是一个用 Scala 编写的库,用于简化编写容错的、高可伸缩性的 Java 和 Scala 的 Actor 模型应用。转载 2014-08-01 11:26:31 · 1864 阅读 · 0 评论 -
快速理解Kafka分布式消息队列框架
==是什么 == 简单的说,Kafka是由Linkedin开发的一个分布式的消息队列系统(Message Queue) 目标Scope(解决什么问题) kafka开发的主要初衷目标是构建一个用来处理海量日志,用户行为和网站运营统计等的数据处理框架。在结合了数据挖掘,行为分析,运营监控等需求的情况下,需要能够满足各种实时在线和批量离线处理应用场合对转载 2014-08-01 11:56:02 · 1962 阅读 · 0 评论 -
Akka 对比 Storm
转载请注明出处:http://blog.csdn.net/jmppok/article/details/17267585原文地址:http://www.warski.org/blog/2013/06/akka-vs-storm/Akka 对比 Storm最近在工作中用到Twitter的Storm框架,于是将他与另外一个高性能,数据并行处理框架Akka进行了对转载 2014-08-01 11:28:08 · 2050 阅读 · 0 评论 -
Hbase与eclipse集成的第一个例子
1、运行Eclipse,创建一个新的Java工程“HBaseClient”,右键项目根目录,选择 “Properties”->“Java Build Path”->“Library”->“Add External JARs”,将HBase解压后根目录下的hbase-0.94.1-security.jar、hbase-0.94.1-security-tests.jar和lib子目录下所有jar 包添转载 2014-07-14 13:03:40 · 560 阅读 · 0 评论 -
虚拟机里在Ubuntu Linux上搭建Eclipse的HBase 开发环境
要求: Hadoop/HBase集群运行在远程的数据中心; 开发环境搭建在本地的虚机的Ubuntu 系统里1. 虚拟机,比如VMware,virtual PC or ...., 里建立ubuntu linux2. 下载Eclipse JEE Version, Helios是个不错的考虑, 这里强烈建议用JEE version,实际开发后你就会发现省事不少;3. Hadoop开转载 2014-07-14 13:04:28 · 747 阅读 · 0 评论 -
HBase编程api介绍
HBaseConfiguration是每一个hbase client都会使用到的对象,它代表的是HBase配置信息。它有两种构造方式:public HBaseConfiguration()public HBaseConfiguration(final Configuration c)默认的构造方式会尝试从hbase-default.xml和hbase-site.xml中读取转载 2014-07-14 13:03:41 · 577 阅读 · 0 评论 -
通过Java Api与HBase交互(转)
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.转载 2014-07-14 13:00:24 · 469 阅读 · 0 评论 -
Hbase配置手册
环境: 操作系统:ubuntu 12.10 64bit jdk:sun jdk 1.6 64bit hadoop:apache hadoop 1.02 hbase:apache hbase 0.92 先决条件:配置apache hadoop append,默认这个属性是false,需要设置为true1)下载hbase 解转载 2014-07-14 14:01:27 · 641 阅读 · 0 评论 -
HBase使用场景和成功案例 (转)
有时候了解软件产品的最好方法是看看它是怎么用的。它可以解决什么问题和这些解决方案如何适用于大型应用架构,能够告诉你很多。因为HBase有许多公开的产品部署,我们正好可以这么做。本章节将详细介绍一些人们成功使用HBase的使用场景。注意:不要自我限制,认为HBase只能解决这些使用场景。它是一个初生的技术,根据使用场景进行创新正驱动着系统的发展。如果你有新想法,认为可以受益于HBas转载 2014-07-14 13:48:36 · 718 阅读 · 1 评论 -
HBase配置性能调优(转)
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonSe转载 2014-07-14 13:01:50 · 558 阅读 · 0 评论 -
HBase Java API类介绍
几个相关类与HBase数据模型之间的对应关系java类HBase数据模型HBaseAdmin数据库(DataBase)HBaseConfigurationHTable表(Table)HTableDescriptor列族(Column Family)Put转载 2014-07-14 13:01:11 · 513 阅读 · 0 评论 -
HBase设计与开发性能优化(转)
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这转载 2014-07-14 13:02:28 · 525 阅读 · 0 评论 -
HBase体系结构(转)
HBase的服务器体系结构遵循简单的主从服务器架构,它由HRegion服务器(HRegion Server)群和HBase Master服务器(HBase Master Server)构成。HBase Master服务器负责管理所有的HRegion服务器,而HBase中所有的服务器都是通过ZooKeeper来进行协调,并处理HBase服务器运行期间可能遇到的错误。HBase Master Serv转载 2014-07-14 12:59:39 · 594 阅读 · 0 评论 -
HBase Java API使用操作例子
package net.linuxidc.www; import org.apache.Hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.转载 2014-07-14 12:58:46 · 537 阅读 · 0 评论 -
分布式发布订阅消息系统 Kafka 架构设计
我们为什么要搭建该系统Kafka是一个消息系统,原本开发自LinkedIn,用作LinkedIn的活动流(activity stream)和运营数据处理管道(pipeline)的基础。现在它已为多家不同类型的公司 作为多种类型的数据管道(data pipeline)和消息系统使用。活动流数据是所有站点在对其网站使用情况做报表时要用到的数据中最常规的部分。活动数据包括页面转载 2014-07-31 16:49:30 · 2131 阅读 · 0 评论