Big Data
Omni-Space
专注Android, Mobile Security and AI
展开
-
Kafka文件存储机制那些事
Kafka是什么 Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。 1.前言 一个商业化消息队列的性能好坏,其文件存储机制设计是衡量一个消息队列服务转载 2016-03-07 19:03:55 · 836 阅读 · 0 评论 -
万变不离其宗之海量数据下的算法问题处理思路
本文介绍 万变不离其宗之海量数据下的算法问题处理思路 万变不离其宗之海量数据下的算法问题处理思路 本文由在当地较为英俊的男子金天大神原创,版权所有,欢迎转载,但请保留这段版权信息,多谢合作,有任何疑问欢迎通过微信联系我交流:jintianiloveu 海量数据下的算法问题 本文开篇就引入了一个很重要的问题,海量数据处理下的算法问题。这个不管是在求职还是在以后的工转载 2017-11-08 14:19:43 · 542 阅读 · 0 评论 -
基于 ELK Stack 和 Spark Streaming 的日志处理平台设计与实现
概述 大数据时代,随着数据量不断增长,存储与计算集群的规模也逐渐扩大,几百上千台的云计算环境已不鲜见。现在的集群所需要解决的问题不仅仅是高性能、高可靠性、高可扩展性,还需要面对易维护性以及数据平台内部的数据共享性等诸多挑战。优秀的系统运维平台既能实现数据平台各组件的集中式管理、方便系统运维人员日常监测、提升运维效率,又能反馈系统运行状态给系统开发人员。例如采集数据仓库的日志可以按照时间序列查看各...转载 2019-04-18 12:53:21 · 617 阅读 · 0 评论 -
亿级 ELK 日志平台构建实践
本篇主要讲工作中的真实经历,我们怎么打造亿级日志平台,同时手把手教大家建立起这样一套亿级 ELK 系统。日志平台具体发展历程可以参考上篇 「从 ELK 到 EFK 演进」 废话不多说,老司机们座好了,我们准备发车了~~~ 整体架构 整体架构主要分为 4 个模块,分别提供不同的功能 Filebeat:轻量级数据收集引擎。基于原先 Logstash-fowarder 的源码改造出来。换...转载 2019-04-18 18:14:37 · 434 阅读 · 0 评论 -
互联网亿级日志实时分析平台,一个码农半小时就可以搞定,只因ELK
一,前言 人们常常说数据如金,可是,能被利用起的数据,才是“金”。而互联网的数据,常常以日志的媒介的形式存在,并需要从中提取其中的"数据"。 从这些数据中,我们可以做用户画像(每个用户都点了什么广告,对哪些开源技术感兴趣),安全审计,安全防护(如果1小时内登录请求数到达一定值就报警),业务数据统计(如开源中国每天的博客数是多少,可视化编辑格式和markdown格式各占比例是多少)等等。 之所...转载 2019-04-18 18:16:18 · 624 阅读 · 0 评论 -
新浪是如何分析处理32亿条实时日志的?
服务介绍 随着实时分析技术的发展及成本的降低,用户已经不仅仅满足于离线分析。目前我们服务的用户包括微博,微盘,云存储,弹性计算平台等十多个部门的多个产品的日志搜索分析业务,每天处理约32亿条(2TB)日志。 技术架构 简单介绍一下服务的技术架构: 这是一个再常见不过的架构了: (1)Kafka:接收用户日志的消息队列 (2)Logstash:做日志解析,统一成json输出给Ela...转载 2019-04-18 18:20:25 · 311 阅读 · 0 评论