开源日志系统比较:scribe、chukwa、kafka、flume

1. 背景介绍 许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征: (1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦; (2) 支持近实时的在线分析系统和类似于Hado...

2015-05-15 17:21:45

阅读数 3092

评论数 0

kafka和flume的对比

摘要: (1)kafka和flume都是日志系统。kafka是分布式消息中间件,自带存储,提供push和pull存取数据功能。flume分为agent(数据采集器),collector(数据简单处理和写入),storage(存储器)三部分,每一部分都是可以定制的。比如agent采用RPC(Thri...

2015-05-15 17:20:21

阅读数 19217

评论数 0

elasticsearch简介

elasticsearch ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是第二流行的企业搜索引擎。设计用于...

2015-05-14 21:59:51

阅读数 2795

评论数 0

elasticsearch快照和恢复

快照和恢复 Snapshot and restore 模块允许创建单个索引或者整个集群的快照到远程仓库. 在初始版本里只支持共享文件系统的仓库,但是现在通过官方的仓库插件可以支持各种各样的后台仓库。 仓库 在进行任何快照或者恢复操作之前必须有一个快照仓库注册在Elasticsearch里...

2015-05-14 21:48:03

阅读数 12077

评论数 1

log4cxx 使用代码进行配置

(1)官网的一个例子 #include #include #include #include #include int main() { log4cxx::FileAppender * fileAppender = new log4cxx::FileAppender...

2015-04-22 15:14:10

阅读数 4771

评论数 0

RocketMQ与Kafka对比(18项差异)

转自:https://github.com/alibaba/RocketMQ/wiki/rmq_vs_kafka 淘宝内部的交易系统使用了淘宝自主研发的Notify消息中间件,使用Mysql作为消息存储媒介,可完全水平扩容,为了进一步降低成本,我们认为存储部分可以进一步优化,2011年初,L...

2015-04-15 19:13:05

阅读数 2576

评论数 0

md5

php中md5函数与linux中md5sum结果不同的问题   2014-05-05 11:04:40|  分类: 技术相关 |  标签:php  linux  md5  md5sum  |举报|字号 订阅 简而言之,linux中用echo “123”| md5sum或md5su...

2015-03-30 11:09:47

阅读数 2646

评论数 0

http header cache-control (request和response区别)

摘要:(1)网络服务会根据 request的header中的 cache-control策略设置response的cache-control策略 1 response cache-control 和 request cache-control关系 CacheIgnoreCacheCon...

2015-03-20 21:06:24

阅读数 11920

评论数 0

spark第二篇--基本原理

==是什么 ==   目标Scope(解决什么问题)   在大规模的特定数据集上的迭代运算或重复查询检索   官方定义 aMapReduce-like cluster computing framework designed for low-latency...

2015-03-20 14:56:30

阅读数 8654

评论数 0

spark第一篇--简介,应用场景和基本原理

解析Spark在腾讯、雅虎、优酷的成功应用 2014-06-09 14:44 佚名 36大数据 字号:T | T Spark作为Apache顶级的开源项目,项目主页见http://spark.apache.org。在迭代计算,交互式查询计算以及批量流计算方面都有相关的子项目,如Shar...

2015-03-20 14:39:11

阅读数 31977

评论数 1

一个Cmake的例子

命令查询列表:http://www.cmake.org/cmake/help/v3.2/manual/cmake-commands.7.html # # Official dependency number 0: CMake. # Obviously, we must have it...

2015-03-17 16:59:02

阅读数 5148

评论数 0

storm 使用过程中遇到的问题

1 bolt不停重启,excutor无法启动。 nimbus日志类似如下(), 2014-03-12 10:55:06 b.s.d.nimbus [INFO] Executor MITAS3-74-1394565794:[34 34] not alive 2014-03-12 10:55:0...

2015-03-13 17:21:34

阅读数 4283

评论数 0

storm安装

CentOS 5.8 x64 make tar xf zeromq-2.1.7.tar.gz cd zeromq-2.1.7 ./configure --prefix=/opt/zeromq make && make install unzip jzmq-mast...

2015-03-13 10:47:36

阅读数 1374

评论数 0

git的理念

集中式vs分布式 4924次阅读 Linus一直痛恨的CVS及SVN都是集中式的版本控制系统,而Git是分布式版本控制系统,集中式和分布式版本控制系统有什么区别呢? 先说集中式版本控制系统,版本库是集中存放在中央服务器的,而干活的时候,用的都是自己的电脑,所以要先从中央服务器取得最新的版本,...

2015-03-11 11:44:42

阅读数 2884

评论数 0

Beanstalkd

摘要by ck:beanstalkd  和  kafka的本质区别是什么? Beanstalkd,一个高性能、轻量级的分布式内存队列系统,最初设计的目的是想通过后台异步执行耗时的任务来降低高容量Web应用系统的页面访问延迟,支持过有9.5 million用户的Facebook Causes应...

2015-03-03 12:05:42

阅读数 2550

评论数 0

word2vec c代码使用说明

摘要: 1 分词 将文本语料进行分词,以空格,tab隔开都可以。生成分词后的语料 2 训练 对分词后的语料test.txt 进行训练得到模型文件vectors.bin  /word2vec -train test.txt -output vectors.bin -...

2015-02-03 15:17:33

阅读数 7291

评论数 1

使用Python实现Hadoop MapReduce程序

使用Python实现Hadoop MapReduce程序 分类: Python Hadoop2013-03-10 21:35 8933人阅读 评论(4) 收藏 举报 HadoopMapreducePython 转自:使用Python实现Hadoop MapReduce程序 英文原文:...

2015-01-30 11:10:29

阅读数 2465

评论数 0

美团推荐算法实践

摘要: query-based方法 “用户的搜索点击结果建立权重”的方法可以用在优化搜索上。 graph-based方法  "打破一般cf只衡量两度关系,建立全局的实体相似性" 对于一般协同过滤也是一个有益的补充。 location-based 对于团购等...

2015-01-23 14:58:48

阅读数 4411

评论数 0

redis第一篇--综述

1 redis里边有数据库的概念。可分为1-255这些表。在存储或者查找的时候要指明。 redis_sentinel 集群里边封装成了namespace这样的概念。与db是不一样的。

2015-01-21 13:00:57

阅读数 1298

评论数 0

git fetch pull checkout区别

Git中从远程的分支获取最新的版本到本地有这样2个命令: 1. git fetch:相当于是从远程获取最新版本到本地,不会自动merge     git fetch origin mastergit log -p master..origin/mastergit merge origin/ma...

2015-01-15 17:50:42

阅读数 11280

评论数 1

提示
确定要删除当前文章?
取消 删除
关闭
关闭