大数据相关
Dreamer who
=== Happiness isn't something you experience; it's something you remember.
展开
-
Big Data Counting: How to count a billion distinct objects using only 1.5KB of Memory
This is a guest post by Matt Abrams (@abramsm), from Clearspring, discussing how they are able to accurately estimate the cardinality of sets with billions of distinct elements using surprisingly smal转载 2015-06-26 23:59:20 · 900 阅读 · 0 评论 -
实战低成本服务器搭建千万级数据采集系统
上一篇文章《社会化海量数据采集框架搭建》提到如何搭建一个社会化采集系统架构,讲架构一般都比较虚,这一篇讲一下如何实战用低成本服务器做到日流水千万级数据的分布式采集系统。有这样一个采集系统的需求,达成指标: 需要采集30万关键词的数据 、微博必须在一个小时采集到、覆盖四大微博(新浪微博、腾讯微博、网易微博、搜狐微博)。为了节约客户成本,硬件为普通服务器:E5200 双核 2.5G cpu,转载 2015-06-05 22:14:55 · 3511 阅读 · 0 评论 -
一致性hash和solr千万级数据分布式搜索引擎中的应用
一致性hash和solr千万级数据分布式搜索引擎中的应用Posted on 12 五月, 2013 by lanceyan| 6条评论互联网创业中大部分人都是草根创业,这个时候没有强劲的服务器,也没有钱去买很昂贵的海量数据库。在这样严峻的条件下,一批又一批的创业者从创业中获得成功,这个和当前的开源技术、海量数据架构有着必不可分的关系。比如我们使用mysql、nginx等开源软件转载 2015-06-05 22:31:52 · 759 阅读 · 0 评论 -
5 Techniques to Improve Your Server Logging
Lately we’ve seen a variety of new tools that help you make sense of your logs. Open-source projects such as Scribe and LogStash, on-premise tools like Splunk, and hosted services such as SumoLogic an转载 2015-06-27 00:04:42 · 639 阅读 · 0 评论 -
分布式系统的跟踪系统Dubbo RPC处理
分布式系统的跟踪系统Dubbo RPC处理 接着前一篇博文http://blog.csdn.net/doctor_who2004/article/details/46974695 上篇只是提供了一个思想,今天具体给出dubbo rpc 处理细节。 dubbo prc处理部分,那就是dubbo 的filter 扩展。dubbo 的filter 接口:原创 2015-10-10 11:03:16 · 5216 阅读 · 0 评论