2015年10月_DandelionCoder

转载大数据架构：flume-ng+Kafka+Storm+HDFS 实时系统组合

个人观点：大数据我们都知道hadoop，但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理，hadoop还是比较适合的，但是对于实时性比较强的，数据量比较大的，我们可以采用Storm，那么Storm和什么技术搭配，才能够做一个适合自己的项目。下面给大家可以参考。可以带着下面问题来阅读本文章：1.一个好的项目架构应该具备什么特点？2.本项目架构是如何保证数据准确性的？3

2015-10-22 13:52:16 489

转载如何在高并发分布式系统中生成全局唯一Id

博文示例：1. GUID生成Int64值后是否还具有唯一性测试2. Random生成高唯一性随机码今天分享的主题是：如何在高并发分布式系统中生成全局唯一Id。但这篇博文实际上是“半分享半讨论”的博文：1) 半分享是我将说下我所了解到的关于今天主题所涉及的几种方案。2) 半讨论是我希望大家对各个方案

2015-10-20 15:59:17 691

转载开源大数据处理工具汇总（下）

接上一部分：开源大数据处理工具汇总（上），第二部分主要收集整理的内容主要有日志收集系统、消息系统、分布式服务、集群管理、RPC、基础设施、搜索引擎、Iaas和监控管理等大数据开源工具。日志收集系统一、Facebook Scribe贡献者：Facebook简介：Scribe是Facebook开源的日志收集系统，在Facebook内部已经得到大量的应用。它能够从各种日志源上收集日志

2015-10-20 15:55:08 815

转载开源大数据处理工具汇总（上）

本文一共分为上下两部分。我们将针对大数据开源工具不同的用处来进行分类，并且附上了官网和部分下载链接，希望能给做大数据的朋友做个参考。下面是第一部分。查询引擎一、Phoenix贡献者：：Salesforce简介：这是一个Java中间层，可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写，代码位于GitHub上，并且提供了一个客户端可嵌入的JDB

2015-10-20 15:53:35 1026

转载 Elasticsearch基础教程

Elasticsearch基础教程翻译：潘飞（tinylambda@gmail.com）基础概念 Elasticsearch有几个核心概念。从一开始理解这些概念会对整个学习过程有莫大的帮助。接近实时（NRT） Elasticsearch是一个接近实时的搜索平台。这意味着，从索引一个文档直到这个文档能够被搜索到有一个

2015-10-19 11:33:50 414

转载使用elasticsearch遇到的一些问题以及解决方法

1.由gc引起节点脱离集群因为gc时会使jvm停止工作，如果某个节点gc时间过长，master ping3次（zen discovery默认ping失败重试3次）不通后就会把该节点剔除出集群，从而导致索引进行重新分配。解决方法：（1）优化gc，减少gc时间。（2）调大zen discovery的重试次数（es参数：ping_retries）和超时时间（es参数：ping_ti

2015-10-16 18:12:49 3792

转载 Java并发编程实践-总结

根据《Java并发编程实践》一书整理的思维导图。希望能够有所帮助。第一部分：第二部分：第三部分：

2015-10-15 13:53:31 278

转载 Disruptor的使用

本文代码托管在 https://github.com/hupengcool/disruptor-starterIntruduction关于吹牛逼的话就不说了。。。Disruptor是Java实现的用于线程间通信的消息组件。其核心是一个Lock-free的Ringbuffer,Disruptor使用CAS而不是Lock。与大部分并发队列使用的Lock相比，CAS显然要快很多。CAS是

2015-10-12 14:38:09 1204

肖的专栏