社会我857-CSDN博客

原创 Amazon Aurora 深度探索

Amazon 的 Aurora 自从问世，就备受关注，其性能和实现架构是被关注的热点。2017年，Amazon 发表了一篇论文，披露其实现的一些技术细节。本文在此背景下，对 Aurora 系统的实现从整体架构、存储、事务处理三个方面进行深入探讨，并从数据库内核技术实现的角度对 Aurora 做了一定的推测。2017年，Amazon 在 SIGMOD 上发表了论文《Amazon Aurora : Design Considerations for High Throughput Cloud Native

2020-06-04 07:38:34 270

原创 Livy : 基于 Apache Spark 的 REST 服务

Apache Spark 提供的两种基于命令行的处理交互方式虽然足够灵活，但在企业应用中面临诸如部署、安全等问题。为此本文引入 Livy 这样一个基于 Apache Spark 的 REST 服务，它不仅以 REST 的方式代替了 Spark 传统的处理交互方式，同时也提供企业应用中不可忽视的多用户，安全，以及容错的支持。背景Apache Spark 作为当前最为流行的开源大数据计算框架，广泛应用于数据处理和分析应用，它提供了两种方式来处理数据：一是交互式处理，比如用户使用 spark-shell 或是

2020-06-04 07:38:26 214

原创大数据的分布式调度

大数据的分布式调度在进行数据 ETL 过程中承担承上启下的角色，整个数据的生产、交付、消费都会贯穿其中，本文将从调度、分布式调度的特征，再对大数据调度个性化特征进行阐述，在满足大数据使用的架构和业务场景上娓娓道来，打造一个高可用、高效率、灵活性的大数据调度平台。调度从上个世纪50年代起，调度问题的研究就受到数学、运筹学、工程技术学等领域科学的重视[1]，人们主要从数学的角度来研究调度问题，调度问题也同样被定义为“分配一组资源来执行一组任务”，以获得生产任务执行时间或成本的最优[2]。调度在计算机任务的实

2020-06-04 07:38:12 278

原创 HBase 在滴滴出行的应用场景和最佳实践

背景对接业务类型HBase 是建立在 Hadoop 生态之上的 Database，源生对离线任务支持友好，又因为 LSM 树是一个优秀的高吞吐数据库结构，所以同时也对接了很多线上业务。在线业务对访问延迟敏感，并且访问趋向于随机，如订单、客服轨迹查询。离线业务通常是数仓的定时大批量处理任务，对一段时间内的数据进行处理并产出结果，对任务完成的时间要求不是非常敏感，并且处理逻辑复杂，如天级别报表、安全和用户行为分析、模型训练等。多语言支持HBase 提供了多语言解决方案，并且由于滴滴各业务线 RD 所使用

2020-06-04 07:38:04 224

原创基于 Spark 的大规模机器学习在微博的应用

众所周知，自2015年以来微博的业务发展迅猛。如果根据内容来划分，微博的业务有主信息（Feed）流、热门微博、微博推送（Push）、反垃圾、微博分发控制等。每个业务都有自己不同的用户构成、业务关注点和数据特征。庞大的用户基数下，由用户相互关注衍生的用户间关系，以及用户千人千面的个性化需求，要求我们用更高、更大规模的维度去刻画和描绘用户。大体量的微博内容，也呈现出多样化、多媒体化的发展趋势。一直以来，微博都尝试通过机器学习来解决业务场景中遇到的各种挑战。本文为新浪微博吴磊在 CCTC 2017云计算大会 S

2020-06-04 07:37:53 282

原创 HBase SQL Phoenix 在读延迟敏感场景的应用和探索

本文主要介绍 Phoenix 对接低延迟业务遇到的问题和解决过程，并在最后列举了几个 Phoenix 应用比较成功的场景，帮助读者更好地将 Phoenix 应用到企业应用中。背景HBase 作为一个优秀的分布式数据库，满足了大量 KV 及 Scan 查询的场景，但其 API 语义定义得偏底层，更专注于 Bytes，需要应用层自己维护类型和编码关系，使用门槛偏高。随着公司业务发展，用户对支持海量存储、并且支持 SQL 的 DB 需求越发强烈，所以引入了 Phoenix。Phoenix 作为将 HBase

2020-06-04 07:37:39 413

原创饿了么大数据平台建设

随着接入的需求方越来越多样化，对大数据的数据使用、数据存储与计算的需求也越来越多样化，同时业务飞速发展，集群的规模也急速扩大。如何在这样的场景下通过大数据平台，稳定支撑住业务的发展是一个不小的挑战。本文分享主要平台工具链，技术、选型及架构设计上的一点经验。大数据平台现状饿了么的大数据平台团队成立于2015年5月份左右，在16年4月份，Hadoop 集群规模还只在100+节点数，而在一年时间里集群规模快速增长到1000+的水平，这还是在引入数据生命周期进行管控的情况下的规模增速；同样，流计算集群的规模虽然

2020-06-04 07:37:07 367

原创网易数据运河系统 NDC 设计与应用

NDC 是网易近一年新诞生的结构化数据传输服务，它整合了网易过去在数据传输领域的各种工具和经验，将单机数据库、分布式数据库、OLAP 系统以及下游应用通过数据链路串在一起。除了保障高效的数据传输外，NDC 的设计遵循了单元化和平台化的设计哲学，本篇文章将带大家近距离了解 NDC 的设计思路和实现原理。NDC 简介NDC 全名 Netease Data Canal，直译为网易数据运河系统，是网易针对结构化数据库的数据实时迁移、同步和订阅的平台化解决方案。在 NDC 之前，我们主要通过自研或开源软件工具来

2020-06-04 07:36:33 645

原创 PostgreSQL 并行查询介绍

2016年4月，PostgreSQL 社区发布了 PostgreSQL 9.6 Beta 1，迎来了并行查询（Parallel Query）这个新特性。在追求高性能计算和查询的大数据时代，能提升性能的特性都会成为一个新的热门话题。作为关注 PostgreSQL 发展的数据库开发者，本方作者将分享对于一些 PostgreSQL 并行查询特性相关话题的认识。并行查询的背景随着 SSD 等磁盘技术的平民化，以及动辄上百 GB 内存的普及，I/O 层面的性能问题得到了有效缓解。提升数据库的扩展性能，可以追求

2020-06-04 07:28:34 225

原创 OLTP 类系统数据结转最佳实践

背景介绍业务系统在长期运行的过程中会积累大量的数据，这些数据有些是需要长期保存的，例如一些订单数据，有些只需要短期保存，例如一些日志信息。业务数据一般都会有一个生命周期，生命周期内的我们叫生产数据，生命周期之外（即业务已经关闭）的叫历史数据，我们这里提到的数据结转，指的是将需要长期保存的历史数据从生产库迁移到历史库（转），而将需要短期保存的数据定期删除（结）。我们已经进入了大数据时代，但在 OLTP 类系统中，关系型数据库依然占据主导地位，在关系型数据库中，如果不及时进行数据结转，会严重影响系统的性能。

2020-06-04 07:28:01 259

原创大数据引擎 Greenplum 那些事

本文介绍了大数据引擎 Greenplum 的架构和部分技术特点。从 GPDB 基本背景开始，在架构的层面上讲解 GPDB 系统内部各个模块的概貌，然后围绕 GPDB 的自身特性、并行执行和运维等技术细节，阐述了为什么选择 Greenplum 作为下一代的查询引擎解决方案。Greenplum 的 MPP 架构Greenplum（以下简称 GPDB）是一款开源数据仓库，基于开源的 PostgreSQL 改造而来，主要用来处理大规模数据分析任务。相比 Hadoop，Greenplum 更适合做大数据的存储、

2020-06-04 07:27:29 527 1

原创使用 Marathon 管理 Spark 2.0.2 实现运行

背景去年10月，我们（去哪网）在 Mesos 资源管理框架上实现了 Spark 1.5.2 版本的运行。Spark 版本更新后又对其进行了小升级，沿用之前修改过的代码重新编译，替换一下包，把历史任务全部发一遍就能很好地升级到现在的1.6.1集群版本，1.6.2改动不大也就没有继续升级。到现在正好一年的时间，线上已注册了44个 Spark 任务，其中28个 Streaming 任务。在运行这些任务的过程中我们遇到了很多问题，其中最大的一点是动态扩容问题，即当业务线增加了更复杂的代码逻辑时或者业务增长导致处理

2020-06-04 07:26:56 121

原创探讨数据时代构建高可用数据库的新技术

近几年，随着移动互联网的发展、云计算的普及和各种新业务的出现，数据呈现爆发式增长，给整个业务系统带来了越来越大的挑战，特别是对于底层数据存储系统。完美的高可用系统，是所有公司最理想的追求。如果只从应用层和缓存层看高可用问题，是比较容易解决的。对于应用层来说，根据业务特点可以很方便地设计成无状态的服务，在大多数互联网公司中，在业务层的最上层使用动态 DNS、LVS、HAProxy 等负载均衡组件，配合 Docker 和 Kubernetes 实现弹性伸缩，能够很容易实现应用服务的高可用。对于缓存层来说，也有很

2020-06-04 07:26:25 189

原创微博商业数据挖掘方法

本文主要介绍微博商业数据挖掘的体系及方法，但并不注重模型和算法这些细节，而是阐述数据如何贴近、支持和引导业务，如何建立合理的评价体系，以及如何围绕这两点建设数据挖掘架构。业务及产品微博广告生态的复杂程度在业界数一数二。由于微博本身的开放性，微博广告客户天生就有如下多样性：类型电商类型：投放方式大多比较传统，投放目标主要是注册或购买；App 类型：投放目标主要是 App 下载或者用户唤醒；O2O：投放目标包括电话、到店、销售线索等；媒体/品牌类：投放目标主要是带粉，扩大影响力和传播范围。投

2020-06-04 07:25:52 332

原创 TiDB 在摩拜单车在线数据业务的应用和实践

摩拜每天产生的骑行数据超过 30TB，在全球拥有最为全面的骑行大数据，飞速增长的业务下也面临着数据库扩展与运维的巨大挑战。中间件方案对业务过强的侵入性、不支持跨分片的分布式事务、无法保证强一致性事务的特性都使我们望而却步。2017年初，摩拜单车开始使用 TiDB，从最早的 RC3、RC4、PreGA、到现在的1.0正式版，一步步见证了 TiDB 的成熟和稳定。背景摩拜单车于2015年1月成立，2016年4月22日地球日当天正式推出智能共享单车服务，截至 2017年11 月中旬，已先后进入国内外超过180

2020-06-04 07:25:21 172

原创使用 SMACK 堆栈进行快速数据分析

本文讨论作为大数据架构的 SMACK 堆栈（Spark、Mesos、Akka、Cassandra、Kafka），能够有效结合快速在线分析和长时间运行的批式处理任务。SMACK 堆栈仅依赖经过测试的开源软件，是一个基于 Hadoop 架构的可行替代方案。从大数据到快速数据除了能够以批处理模式分析大型数据集之外，现代数据驱动型组织还需要尽快从所收集的数据中生成洞察，并最终采取行动。在这方面，传统的 Hadoop 堆栈（HDFS 作为存储层，MapReduce 或 Tez 作为处理框架，YARN 作为集群资源

2020-06-04 07:24:52 160

原创图数据库在 CMDB 领域的应用

传统 CMDB 的弊端CMDB，英文名 Configuration Management Database，即配置管理数据库，常常被认为是构建其他ITIL 流程的基础而优先考虑，ITIL 项目的成败与是否成功建立 CMDB 有非常大的关系。从2000年开始，CMDB 开始在国内企业慢慢推广开来，分别经过了最初的资产信息电子化阶段、开始与 ITSM 流程协同配合阶段，一直到配置自动化发现引入阶段，目前随着云计算技术的发展，CMDB 的场景已经从传统的资产台账管理逐步演化到流程协同管理、影响分析、配置比对

2020-06-04 07:24:19 251

原创图数据库――大数据时代的高铁

如果把传统关系型数据库比做火车的话，那么到现在大数据时代，图数据库可比做高铁。它已成为 NoSQL 中关注度最高，发展趋势最明显的数据库。简介在众多不同的数据模型里，关系数据模型自20世纪80年代就处于统治地位，而且出现了不少巨头，如 Oracle、MySQL 和 MSSQL，它们也被称为关系数据库管理系统（RDBMS）。然而，随着关系数据库使用范围的不断扩大，也暴露出一些它始终无法解决问题，其中最主要的是数据建模中的一些缺陷和问题，以及在大数据量和多服务器之上进行水平伸缩的限制。同时，互联网发展也产生

2020-06-04 07:23:45 275

原创 Heron：来自 Twitter 的新一代流处理引擎（应用篇）

本文对比了 Heron 和常见的流处理项目，包括 Storm、Flink、Spark Streaming 和 Kafka Streams，归纳了系统选型的要点。此外实践了 Heron 的一个案例，以及讨论了 Heron 在这一年开发的新特性。在今年6月期的“基础篇”中，我们通过学习 Heron 的基本概念、整体架构和核心组件等内容，对 Heron 的设计、运行等方面有了基本的了解。在这一期的“应用篇”中，我们将 Heron 与其他流行的实时流处理系统（Apache Storm 、Apache Flink、

2020-06-04 07:23:14 231

原创 Heron：Twitter 的新一代流处理引擎原理篇

本文介绍了流计算的背景和重要概念，并详细分析了 Twitter 目前的流计算引擎—— Heron的结构及重要组件，希望能借此为大家提供一些在设计和构建流计算系统时的经验。流计算又称实时计算，是继以 Map-Reduce 为代表的批处理之后的又一重要计算模型。随着互联网业务的发展以及数据规模的持续扩大，传统的批处理计算难以有效地对数据进行快速低延迟处理并返回结果。由于数据几乎处于不断增长的状态中，及时处理计算大批量数据成为了批处理计算的一大难题。在此背景之下，流计算应运而生。相比于传统的批处理计算，流计算具

2020-06-04 07:22:38 183

weixin_38113732的博客