分布式技术
文章平均质量分 62
Towan
天下之至柔,驰骋天下之至坚。
展开
-
kafka学习之路
本文主要关注why-->what---->How1Why?为什么要学习kafka?主要基于kafka的诸多应用:诸多大公司都在用如:淘宝、LinkIna.kafka在我们进行消息处理的时候吞吐量大,及每秒钟转发数据量大,多大?2.What?kafka是什么?kafka是一个分布式消息分发系统kafka的工作原理【三个角色】kafka的设计思想原创 2013-10-09 11:04:30 · 1015 阅读 · 0 评论 -
Eclipse下配置Hadoop插件
前提,请先配置好Hadoop集群,并启动Hadoop守护进程。集群搭建参见:http://blog.csdn.net/matraxa/article/details/7179366我使用的软件版本如下:Ubuntu: Ubuntu10.04JDK: jdk1.6.0_25Eclipse: Eclipse3.71Hadoop: Hadoop-0.20.203.0转载 2013-12-10 12:34:52 · 1020 阅读 · 0 评论 -
Ganglia:分布式监控系统
1 环境安装配置1.1 依赖软件下载Ganglia是伯克利开发的一个集群监控软件。可以监视和显示集群中的节点的各种状态信息,比如如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,同时可以将历史数据以曲线方式通过php页面呈现。而ganglia又依赖于一个web服务器用来显示集群状态,用rrdtool来存储数据和生成曲线图,需要xml解析因此需原创 2013-12-15 18:40:34 · 2200 阅读 · 0 评论 -
使用 Linux 和 Hadoop 进行分布式计算
人们每天都依赖搜索引擎以从 Internet 的海量数据中找到特定的内容,但您曾经想过这些搜索是如何执行的吗?一种方法是 Apache 的 Hadoop,它是一个能够对海量数据进行分布式处理的软件框架。Hadoop 的一个应用是并行索引 Internet Web 页面。Hadoop 是一个受到 Yahoo!、Google 和 IBM 等公司支持的 Apache 项目。本文将介绍 Hadoop 框架原创 2013-12-20 12:45:23 · 1303 阅读 · 0 评论 -
Hadoop Distributed File System 简介
HDFS 是一个 Apache Software Foundation 项目,是 Apache Hadoop 项目的一个子项目(参见 参考资料)。Hadoop 非常适于存储大型数据(比如 terabytes 和 petabytes),并使用 HDFS 作为其存储系统。HDFS 允许您连接多个集群中包含的节点(普通个人计算机),那些集群上分布着一些数据文件。然后您可以将那些数据文件作为一个无缝文原创 2013-12-20 12:49:05 · 1240 阅读 · 0 评论 -
Java 开发 2.0: NoSQL
在 Web 2.0 时代,NoSQL 数据存储(比如 Bigtable 和 CouchDB)从边缘进入主流,因为它们能够解决伸缩性问题,而且能够大规模解决该问题。Google 和 Facebook 只是已经开始使用 NoSQL 数据存储的两家知名公司,我们仍然处于使用 NoSQL 数据存储的早期阶段。无模式数据存储与传统的关系数据库存在根本区别,但是利用它们比您想象的要简单得多,尤其是当您从一个域原创 2014-01-08 12:56:15 · 1211 阅读 · 0 评论 -
一款分布式系统监控及网络监控的企业级神器zabbix
在选择搭建监控Linux系统的开源软件时,你一定听说过zabbix这个神器,zabbix是一个基于WEB界面的提供分布式系统监控以及网络监控功能的企业级的开源解决方案。由于zabbix是基于web界面将存储在数据库中的数据生成图表显示出来,所以zabbix需要运行在web和数据库的平台上。 zabbix由2部分构成,zabbix server与可选的组件zabbix agent。za原创 2014-01-16 12:30:11 · 2101 阅读 · 0 评论 -
Apache Hadoop 2.0.3
Apache Hadoop 2.0.3发布了,在这次版本更新中,主要增加了以下几个特性: 1. 引入一种新的HDFS HA解决方案QJM 之前NameNode HA已经有两种解决方案,分别是基于共享存储区的Backup Node方案和基于Bookeeper的方案,在该版本中引入另外一种方案:QJM(Quorum Journal Manager)。该方案(HDFS-30原创 2014-02-18 15:57:22 · 1067 阅读 · 0 评论 -
聚类算法的MapReduce并行化分析
1.K-means基本原理:首先随机的选择K个对象原创 2014-05-03 16:27:07 · 3452 阅读 · 0 评论 -
hadoop伪分布启动
hadoop2.20启动 以下操作均在Hadoop_Home下进行。 1 格式化namenode: bin/hdfs namenode -format 2 启动namenode,datanode: sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh start datanode原创 2014-03-23 15:15:55 · 811 阅读 · 0 评论 -
一些术语集锦
State machine replicationZABRaftParospayload原创 2013-12-02 15:55:45 · 890 阅读 · 0 评论 -
Ubuntu编译安装Keepalived
Keepalived是一种防止单点故障的高可用解决方案。首先下载:cd /usrwget http://www.keepalived.org/software/keepalived-1.2.7.tar.gz解压:tar zxvf keepalived-1.2.7.tar.gz编译之前需要安装几个程序库[plain] view plaincopyprint转载 2013-12-06 15:46:30 · 2140 阅读 · 0 评论 -
基于solr和zookeeper的分布式搜索方案
SolrCloud 是基于Solr和Zookeeper的分布式搜索方案,是正在开发中的Solr4.0的核心组件之一,它的主要思想是使用Zookeeper作为集群的配置信息中心。 它有几个特色功能: 1)集中式的配置信息 2)自动容错 3)近实时搜索 4)查询时自动负载均衡转载 2013-11-29 14:39:57 · 1271 阅读 · 0 评论 -
kafka学习之二
要点如下1.日志的存储分区追加方式2.offSet,3.生产者和消费者都能选择分区去发送4.消息的传递有两种方式----队列和发布订阅的方式5.为了保证在传输中的整体顺序,分区数设置为1,此时的消费者就是一个了;如果分区多,kafka异步传输消息到每个分区,就难保证整体的完整有序。使用场景1.kafka作为消息代理除了解藕、缓存外,还有高吞吐量和原创 2013-10-10 10:39:36 · 836 阅读 · 0 评论 -
kafka分布式消息系统
Kafka[1]是linkedin用于日志处理的分布式消息队列,linkedin的日志数据容量大,但对可靠性要求不高,其日志数据主要包括用户行为(登录、浏览、点击、分享、喜欢)以及系统运行日志(CPU、内存、磁盘、网络、系统及进程状态)。 当前很多的消息队列服务提供可靠交付保证,并默认是即时消费(不适合离线)。高可靠交付对linkedin的日志不是必须的,故可通过降低可靠性来提高性能,同时原创 2013-11-18 10:18:17 · 2475 阅读 · 0 评论 -
kafka开发环境搭建
如果你要利用代码来跑kafka的应用,那你最好先把官网给出的example先在单机环境和分布式环境下跑通,然后再逐步将原有的consumer、producer和broker替换成自己写的代码。所以在阅读这篇文章前你需要具备以下前提:1. 简单了解kafka功能,理解kafka的分布式原理2. 能在分布式环境下成功运行—topic test。 如果你还没有完成上述两个前提,请原创 2013-11-18 10:49:09 · 1649 阅读 · 1 评论 -
kafka配置-----broker配置
这部分内容对了解系统和提高软件性能都有很大的帮助,kafka官网上也给出了比较详细的配置详单,但是我们还是直接从代码来看broker到底有哪些配置需要我们去了解的,配置都有英文注释,所以每一部分是干什么的就不翻译了,都能看懂:001/**002 * Licensed to the Apache Software Fou原创 2013-11-18 10:44:21 · 2458 阅读 · 0 评论 -
Jdeis api使用redis有序集
Jedis 是 Redis 官方首选的 Java 客户端开发包。这篇文章我们将介绍如何使用 Sorted Set 排序集合(zsets)。Sorted Set 跟一个集合一样,它是不会存在重复的数值,最大的不同是 Sorted Set 中每个元素都是经过排序的。我们先看一些命令:01import java.util.HashMap;原创 2013-11-18 13:23:51 · 2432 阅读 · 0 评论 -
zookeeper学习总结
zookeeper基础配置与入门:http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/agapple学习笔记系列:http://agapple.iteye.com/blog/1292473taobao通用产品团队:http://rdc.taobao.com/team/jm/archives/448Paxos算法原创 2013-11-25 09:17:50 · 1083 阅读 · 0 评论 -
java并发包
Concurrent Collections 是 Java™ 5 的巨大附加产品,但是在关于注释和泛型的争执中很多 Java 开发人员忽视了它们。此外(或者更老实地说),许多开发人员避免使用这个数据包,因为他们认为它一定很复杂,就像它所要解决的问题一样。事实上,java.util.concurrent 包含许多类,能够有效解决普通的并发问题,无需复杂工序。阅读本文,了解 java.util原创 2013-11-25 23:59:15 · 974 阅读 · 0 评论 -
linkedin高吞吐量分布式消息系统kafka使用手记
kafka是一种高吞吐量的分布式发布订阅消息系统,她有如下特性:通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。支持通过kafka服务器和消费机集群来分区消息。支持Hadoop并行数据加载。设计侧重高吞吐量,用于好友动态,相关性统计,排行统计,访原创 2013-11-28 15:48:25 · 1531 阅读 · 0 评论 -
hadoop的datanode启动不起来
经常会遇到这样的情况,hadoop的datanode启动一阵子后,突然一会又down掉了这样的现象主要原因是多次format namenode 造成namenode 和datanode的clusterID不一致。方法:建议查看datanode上面的log信息。解决办法:修改每一个datanode上面的CID(位于dfs/data/current/VERSION文件夹中)使两原创 2014-03-23 16:49:07 · 867 阅读 · 0 评论