大数据
文章平均质量分 71
Gary的影响力
本人目前在新浪做微博图片、CDN、云计算等业务的海量日志实时分析,主要使用Elasticsearch, Logstash, Kibana, Spark, Docker等技术。有事请联系:garygaowork@gmail.com
展开
-
每秒百万级流式日志处理架构的开发运维调优笔记
荣幸之至,我们团队在实时日志分析、搜索项目中曾经应对过百万级的挑战,在这方面有长足的进步。本文以笔记和问答的形式记录了我们曾经遇到过的实际问题及解决方案,而非小白式的大数据科普文章。相信只有真正做过每秒近百万以上的实时日志处理业务,遇到过棘手问题,才能深刻感受我们当时越不过高坎的窘境与解决问题后的狂喜。 本文首发于我们的团队博客,文章内容详见:每秒百万级流式日志处理架构的开发运维调优笔记原创 2017-07-30 20:13:38 · 1553 阅读 · 0 评论 -
Waterdrop帮你快速玩转Spark数据处理
Waterdrop 是一个非常易用,高性能,能够应对海量数据的实时数据处理产品,构建于Apache Spark之上。原创 2018-02-28 00:14:38 · 2867 阅读 · 1 评论 -
如何快速地把HDFS中的数据导入Clickhouse
如何快速地把HDFS中的数据导入Clickhouse ClickHouse是面向OLAP的分布式列式DBMS。我们部门目前已经把所有数据分析相关的日志数据存储至ClickHouse这个优秀的数据仓库之中,当前日数据量达到了300亿。 之前介绍的有关数据处理入库的经验都是基于实时数据流,数据存储在Kafka中,我们使用Java或者Golang将数据从Kafka中读取、解析、清洗之后写入ClickHo...原创 2018-11-09 17:17:14 · 4642 阅读 · 0 评论