• 博客(20)
  • 资源 (1)
  • 收藏
  • 关注

原创 宜信开源|Wormhole 大数据流式处理平台之设计思想

导读:互联网的迅猛发展使得数据不再昂贵,而如何从数据中更快速获取价值变得日益重要,因此,数据实时化成为了一个大趋势。越来越多的业务场景需要实时分析,以极低的延迟来分析实时数据并给出分析结果,从而提高业务效率,带来更高价值。流式处理作为实时处理的一种重要手段,正在因数据实时化的发展而蓬勃发展。本文是敏捷大数据(Agile BigData)背景下的实时流式处理平台Wormhole的开篇介绍:Wormh...

2019-06-28 14:05:53 989

原创 解DBA之惑:数据库承载能力评估及优化手段

作为DBA,有时会被挑战类似这样的问题:如果现有业务规模增加10倍、100倍,数据库是否能够支撑?下个月我们搞大促,数据库这边没问题吧?计划进行去O工作,代码逻辑不变,数据库从Oracle切换到MySQL,MySQL能支撑业务吗?服务器采购选型,到底哪款服务器更适合我们呢?面对诸如上面的这些质疑,DBA应该如何面对?身为DBA该如何评估现有资源使用情况?如果现有数据库资源确实无法...

2019-06-27 11:04:49 419

原创 SpringCloud微服务架构升级总结

一、背景1.1 应用系统的架构历史1.2 什么是微服务?起源:微服务的概念源于 2014 年 3 月 Martin Fowler 所写的一篇文章“Microservices”。文中内容提到:微服务架构是一种架构模式,它提倡将单一应用程序划分成一组小的服务,服务之间互相协调、互相配合,为用户提供最终价值。通信方式:每个服务运行在其独立的进程中,服务与服务间采用轻量级的通信机制互相沟通(通常...

2019-06-26 13:58:00 324

原创 指尖前端重构(React)技术调研分析

一、为什么选择ReactReact是当前前端应用最广泛的框架。三大SPA框架 Angular、React、Vue比较。Angular出现最早,但其在原理上并没有React创新的性能优化,且自身相对来说显得笨重。Vue出现最晚,其核心原理学习了React,只是语法形式的变化,关系上来说React是开拓者,Vue是学习者。React社区有强大活力与创新能力,不断涌现革命性的创新产品,其中包括...

2019-06-26 13:57:05 251

原创 简洁方便的集合处理——Java 8 stream流

背景java 8已经发行好几年了,前段时间java 12也已经问世,但平时的工作中,很多项目的环境还停留在java1.7中。而且java8的很多新特性都是革命性的,比如各种集合的优化、lambda表达式等,所以我们还是要去了解java8的魅力。今天我们来学习java8的Stream,并不需要理论基础,直接可以上手去用。我接触stream的原因,是我要搞一个用户收入消费的数据分析。起初的统计筛...

2019-06-25 10:48:42 223

原创 大量文件名记录的树形结构存储

十多年来,NAS中已经存在的目录和文件达到10亿之多,在设计和开发备份系统的过程中碰到了很多挑战,本文将分享大量文件名记录的树形结构存储实践。一、引言既然是定期备份,肯定会有1次以上的备份。对于一个特定目录,每次备份时都要与上次备份时进行比较,以期找出哪些文件被删除了,又新增了哪些文件,这就需要每次备份时把该目录下的所有文件名进行保存。我们首先想到的是把所有文件名用特定字符进行拼接后保存。由于...

2019-06-24 15:02:47 844

原创 如何设计实时数据平台(技术篇)

敏捷之歌我抽数故我存在 | DBus人人玩转流处理 | Wormhole就当吾是数据库 | Moonbox颜值最后十公里 | Davinci导读:实时数据平台(RTDP,Real-time Data Platform)是一个重要且常见的大数据基础设施平台。在上篇(设计篇)中,我们从现代数仓架构角度和典型数据处理角度介绍了RTDP,并探讨了RTDP的整体设计架构。本文作为下篇(技术篇)...

2019-06-21 11:54:24 4931

原创 如何设计实时数据平台(设计篇)

导读:本文将会分上下两篇对一个重要且常见的大数据基础设施平台展开讨论,即“实时数据平台”。在上篇设计篇中,我们首先从两个维度介绍实时数据平台:从现代数仓架构角度看待实时数据平台,从典型数据处理角度看待实时数据处理;接着我们会探讨实时数据平台整体设计架构、对具体问题的考量以及解决思路。在下篇技术篇中,我们会进一步给出实时数据平台的技术选型和相关组件介绍,并探讨不同模式适用哪些应用场景。希望通过对...

2019-06-20 11:21:30 1826

原创 Linux三剑客之awk详解

第一篇 awk简介与表达式实例一种名字怪异的语言模式扫描和处理,处理数据和生成报告。awk不仅仅是linux系统中的一个命令,而且是一种编程语言;它可以用来处理数据和生成报告(excel);处理的数据可以是一个或多个文件;可以是直接来自标准输入,也可以通过管道获取标准输入;awk可以在命令行上直接编辑命令进行操作,也可以编写成awk程序来进行更为复杂的运用。sed处理strea...

2019-06-19 14:47:24 531

原创 宜信开源|微服务任务调度平台SIA-TASK入手实践

引言最近宜信开源微服务任务调度平台SIA-TASK,SIA-TASK属于分布式的任务调度平台,使用起来简单方便,非常容易入手,部署搭建好SIA-TASK任务调度平台之后,编写TASK后配置JOB进行调度,进而实现整个调度流程。本文新建了JOB示例,该JOB关联了前后级联的两个TASK,TASKONE(前置TASK)和TASKTWO(后置TASK),主要阐述一个JOB怎样关联配置两个级联TASK,...

2019-06-18 12:02:53 507 2

原创 以企业级实时数据平台为例,了解何为敏捷大数据

敏捷大数据,即在敏捷理念原则指导下,构建出一系列通用平台工具,和一整套大数据应用全生命周期方法学,以支撑更轻量、更灵活、更低门槛的大数据实践。本文从理论层面整体解释我们所理解的“敏捷大数据”。一、敏捷大数据的理念原则1.1 组件化/平台化/产品化/本地化组件化/平台化:通过对大数据处理链路进行模块化抽象,形成多个功能高度內聚的组件化平台;组件化平台既可独立与已有平台组件整合使用, 也可组合起...

2019-06-17 16:50:02 549 1

转载 企业安全建设进阶

安全是个“无底洞”,没有一个企业的安全负责人会说自己的系统是百分百安全的,安全也不是特别好衡量和量化,尤其是定量地评估出谁比谁做得好、好多少。有时候也会反思,或者说迷茫,“上了那么多防护手段、到底能不能经得起对抗?”,“安全自研产品做了半年、用了半年、然后有一天它被废弃掉了”,“SDL喊了好几年了,怎么就运营不下去呢?”,“业务主动过来寻求支撑,可是我们手里没有核武器。”…本文将介绍宜信安全建...

2019-06-14 10:50:04 471

原创 【流沙】宜信安全数据平台实践

导读:宜信结合自己的实际情况,实现了一套集采集、分析和存储为一体的安全数据平台——流沙平台。本文重点介绍一下流沙平台的架构,相比于OpenSOC做了哪些优化及改进的地方以及流沙平台在落地过程中的经验总结。前言OpenSOC是思科在BroCON大会上亮相了的一个安全大数据分析架构,它是一个针对网络包和流的大数据分析框架,是大数据分析与安全分析技术的结合, 能够实时的检测网络异常情况并且可以扩展很...

2019-06-13 13:56:37 264

原创 自制小工具大大加速MySQL SQL语句优化(附源码)

引言优化SQL,是DBA常见的工作之一。如何高效、快速地优化一条语句,是每个DBA经常要面对的一个问题。在日常的优化工作中,我发现有很多操作是在优化过程中必不可少的步骤。然而这些步骤重复性的执行,又会耗费DBA很多精力。于是萌发了自己编写小工具,提高优化效率的想法。那选择何种语言来开发工具呢?对于一名DBA来说,掌握一门语言配合自己的工作是非常必要的。相对于shell的简单、perl的飘逸,...

2019-06-12 13:46:05 860

原创 Redis专题(2):Redis数据结构底层探秘

前言上篇文章 Redis闲谈(1):构建知识图谱介绍了redis的基本概念、优缺点以及它的内存淘汰机制,相信大家对redis有了初步的认识。互联网的很多应用场景都有着Redis的身影,它能做的事情远远超出了我们的想像。Redis的底层数据结构到底是什么样的呢,为什么它能做这么多的事情?本文将探秘Redis的底层数据结构以及常用的命令。本文知识脑图如下:一、Redis的数据模型用 键值对 ...

2019-06-11 11:05:29 250

原创 三步实现Django Paginator 分页

Django提供了一个新的类来帮助管理分页数据,这个类存放在django/core/paginator.py.它可以接收列表、元组或其它可迭代的对象。本文将分三步介绍Django Paginator 分页的实现步骤一、通过模型创建SubjectDjango modelsfrom django.db import models class Subject(models.Model): ...

2019-06-11 11:02:31 352

原创 宜信开源|(功能上新)UAVStack服务治理之流量控制

背景应用微服务化场景下,随着服务个数的增加,服务之间的相互调用变得更加复杂,服务治理需求愈加突出,其中服务流量控制是服务治理中的重要一环。当前常用的流量控制方案主要有基于Spring Cloud的Hystrix和阿里开源的Sentinel应用流量控制降级方案。客观而言,两个方案都是侵入式的,要求用户在应用中引入相关包,编写相关逻辑。UAVStack作为一套智能化服务技术栈,其服务治理(UAV...

2019-06-10 16:10:05 516

原创 可用性高达5个9!支付系统高可用架构设计实战

一、背景对于互联网应用和企业大型应用而言,多数都尽可能地要求做到7*24小时不间断运行,而要做到完全不间断运行可以说“难于上青天”。为此,对应用可用性程度的衡量标准一般有3个9到5个9。可用性指标计算方式不可用时间(分钟)99.9%0.1%*365*24*60525.699.99%0.01%*365*24*6052.5699.999%0.001%*3...

2019-06-10 12:50:32 498

原创 API网关如何实现对服务下线实时感知

上篇文章《Eureka 缓存机制》介绍了Eureka的缓存机制,相信大家对Eureka 有了进一步的了解,本文将详细介绍API网关如何实现服务下线的实时感知。一、前言在基于云的微服务应用中,服务实例的网络位置都是动态分配的。而且由于自动伸缩、故障和升级,服务实例会经常动态改变。因此,客户端代码需要使用更加复杂的服务发现机制。目前服务发现主要有两种模式:客户端发现和服务端发现。服务端发现:...

2019-06-04 16:38:08 606

原创 一文了解JVM

一、什么是JVMJVM是Java Virtual Machine(Java 虚拟机)的缩写,JVM是一种用于计算设备的规范,它是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java语言的一个非常重要的特点就是平台无关性。而使用Java虚拟机是实现这一特点的关键。一般的高级语言如果要在不同的平台上运行,至少需要编译成不同的目标代码。而引入Java语言虚拟机后,Ja...

2019-06-03 14:21:33 118

2020卢山巍:数据中台:宜信敏捷数据中台建设实践.pdf

宜信敏捷数据中台建设实践,宜信于2017年推出了一系列大数据开源工具,包括大家熟悉的DBus、Wormhole、Moonbox、Davinci等,在技术社区内得到了广泛关注和好评。那么这些工具是如何在宜信内部应用的?它们和宜信数据中台是怎样的关系?又是如何驱动各种日常数据业务场景的?本内容将会首次回答这些问题,还将重点说说宜信数据中台的设计、架构以及应用场景,提出一种敏捷数据中台的建设思路,以供社区参考和探讨。

2020-10-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除