自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(507)
  • 收藏
  • 关注

转载 带你了解 HBase 数据模型和 HBase 架构

HBase 架构:HBase 数据模型众所周知,HBase 是一个面向列的 NoSQL 数据库。虽然它看起来类似于包含行和列的关系数据库,但它不是关系数据库。关系数据库是面向行的,而 HBase 是面向列的。那么,让我们首先了解面向列和面向行的数据库之间的区别:面向行与面向列的数据库:面向行的数据库以行的顺序存储表记录。而面向列的数据库 将表记录存储在一系列列中,即列中的条目存储在磁盘上的连续位置。为了更好地理解它,让我们举个例子并考虑下表。如果此表存储在面向行的数据库中。它将存储如下

2021-11-06 02:27:40 2235

转载 数据仓库之数据质量建设(深度好文)

数仓建设真正的难点不在于数仓设计,而在于后续业务发展起来,业务线变的庞大之后的数据治理,而数据治理的范围非常广,包含数据本⾝的管理、数据安全、数据质量、数据成本等。在这么多治理内容中,大家想下最重要的治理是什么?当然是数据质量治理,因为数据质量是数据分析结论有效性和准确性的基础,也是这一切的前提。所以如何保障数据质量,确保数据可用性是数据仓库建设中不容忽视的环节。数据质量涉及的范围也很广,贯穿数仓的整个生命周期,从数据产生->数据接入->数据存储->数据处理->数据输出-&g

2021-11-05 18:52:18 2336

转载 TDSQL交易型分布式数据库背景分析

一、背景随着各行各业电子信息化的不断加深,线上交易数据保持了长时间高速增长的态势,对数据存储的需求越来越大,数据库管理系统(DBMS)面临越来越大的性能、空间和稳定性压力。在此过程中,得利于计算&存储&网络等硬件领域的不断进步,业界流行的数据库管理系统逐步从单机架构向分布式架构演变。笔者希冀从梳理数据库管理系统所面临的一个又一个实际挑战及业界所提出的诸多解决方案的过程中,发现片缕灵感以指引未来的数据库开发工作。二、从单机数据库到分布式数据库业界起步阶段诞生的第一代交易型数据库具有

2021-11-05 18:51:33 2346

转载 想了解Xtrabackup备份原理和常见问题分析,看这篇就够了

本文来自华为云MySQL研发团队,主要分享了MySQL备份工具Xtrabackup的备份过程、华为云数据库团队对其做的优化改进,以及在使用中可能遇到的问题与解决方法。文章讨论的内容主要是针对华为云RDS for MySQL, 以及用户自建的社区版MySQL数据库,希望有助于大家理解和使用Xtrabackup,以后面对Xtrabackup问题也更加从容。一、Xtrabackup简介Xtrabackup是Percona团队开发的用于MySQL数据库物理热备份的开源备份工具,具有备份速度快、支持备份数据压

2021-11-05 18:50:51 1017 1

转载 Spring Boot中使用PostgreSQL数据库

在如今的关系型数据库中,有两个开源产品是你必须知道的。其中一个是MySQL,相信关注我的小伙伴们一定都不陌生,因为之前的Spring Boot关于关系型数据库的所有例子都是对MySQL来介绍的。而今天我们将介绍另外一个开源关系型数据库:PostgreSQL,以及在Spring Boot中如何使用。PostgreSQL简介在学习PostgreSQL的时候,我们总是会将其与MySQL放一起来比较:MySQL自称是最流行的开源数据库,而PostgreSQL则标榜自己是最先进的开源数据库,那么有多先进呢?下

2021-11-05 18:49:55 11528 1

转载 机器学习平台统一化分布式存储Ceph的进阶优化

自网易云音乐机器学习平台上线以来,承担着音乐内部推荐、搜索、直播、社交、算法工程等各个业务团队机器学习场景的需求, 这其中也遇到了很大的挑战,尤其是在分布式存储这块上,花费大量时间、精力,解决其中的核心问题。本文是网易数帆存储团队与网易云音乐机器学习平台与框架团队联合创作,向各位看官描述下,在机器学习场景,如何利用Ceph作为统一化的分布式存储,并基于此进行的相关的优化。一、业务背景随着互联网业务的飞速发展,大数据场景下的数据挖掘、算法模型,为业务发展提供精准的个性化能力,在这个过程中,ML Inf

2021-11-05 18:48:35 244

转载 数仓无损压缩算法:gzip算法

【算法原理】gzip是一种无损压缩算法,其基础为Deflate,Deflate是LZ77与哈弗曼编码的一个组合体。它的基本原理是:对于要压缩的文件,首先使用LZ77算法的一个变种进行压缩,对得到的结果再使用哈夫曼编码(根据情况,使用静态哈弗曼编码或动态哈夫曼编码)的方法进行压缩。Deflate最初作为LZW以及其他受专利保护的数据压缩算法的替代版本而设计的,当时那些专利限制了compress以及其它一些流行的归档工具的应用。【压缩核心Deflate】1.LZ77算法LZ77的核心思路是如果一

2021-11-05 18:46:14 328

转载 openGauss数据库源码解析系列文章—— 角色管理

9.3 角色管理角色是拥有数据库对象和权限的实体,在不同的环境中角色可以认为是一个用户、一个组或者兼顾两者。角色管理包含了角色的创建、修改、删除、权限授予和回收操作。9.3.1 角色创建如果在openGauss上需要创建一个角色,可以使用SQL命令CREATE ROLE,其语法为:CREATE ROLE role_name [ [ WITH ] option [ ... ] ] [ ENCRYPTED | UNENCRYPTED ] { PASSWORD | IDENTIFIED BY }

2021-11-05 18:45:17 766

转载 一文带你理解TDengine中的缓存技术

TDengine是一款高性能的物联网大数据平台。为了高效处理时序数据,TDengine中大量用到了缓存技术,自己实现了哈希表、缓存池等技术。今天我会为大家讲解TDengine中用到的这些缓存技术。首先我会先介绍一下什么是缓存,常用的缓存技术,最后重点分享TDengine中的相关技术,最后讲一下改进和优化的方向。下面我们正式开始。什么是缓存凡是位于速度相差较大的两种硬件之间,用于协调两者数据传输速度差异的结构,均可称之为缓存。 缓存最早是用来协调CPU和主内存之间的速度差异,..

2021-11-05 18:44:13 282

转载 PostgreSQL的checkpoint简析

一、Checkpoint简介官方文档对于checkpoint的描述:Checkpointsarepointsinthesequenceoftransactionsatwhichitisguaranteedthattheheapandindexdatafileshavebeenupdatedwithallinformationwrittenbeforethatcheckpoint.Atcheckpointtime,alldi...

2021-11-05 18:43:12 1126

转载 GaussDB (for Cassandra) 数据库治理:大key与热key问题的检测与解决

Cassandra数据库是一个高度可扩展的高性能分布式数据库,面向大数据场景,可用于管理大量的结构化数据。在业务使用的过程中,随着业务量和数据流量的持续增长,往往一些业务的设计弊端逐渐暴露出来,降低了集群的稳定性和可用性。比如主键设计不合理,单个分区的记录数或数据量过大,出现超大分区键,引起了节点负载不均,集群稳定性会下降,这一类问题称为大key问题。当某一热点key的请求在某一主机上的访问超过server极限时,会导致热点Key问题的产生。往往大key是造成热key问题的间接原因。一款基于华为自研的计

2021-11-05 18:41:57 153

转载 Elasticsearch高并发写入优化的开源协同经历

导语:在腾讯金融科技数据应用部的全民 BI 项目里,我们每天面对超过 10 亿级的数据写入,提高 ES 写入性能迫在眉睫,在最近的一次优化中,有幸参与到了 Elasticsearch 开源社区中。背景为了更便捷地分析数据,腾讯金融科技数据应用部去年推出了全民 BI 的系统。这个系统通过 Elasticsearch 进行基础的统计,超过 10 亿级的数据量需要尽可能快速地导入到 ES 系统中。即使经过多次的参数优化,我们依然需要几个小时才能完成导入,这是系统此前存在的一大瓶颈。在这样的背景下,我们

2021-11-04 14:49:26 457 1

转载 elasticsearch配置文件详解

由于公司的ES服务器近期出了点问题,这一块的任务交由及我,从完全不懂ES到现在慢慢了解它的配置参数,感觉收获比较多,在这里记录一下ES的核心配置文件elasticsearch.yml中的参数信息(就是从别人的博客中copy过来的);配置文件位于es根目录的config目录下面,有elasticsearch.yml和logging.yml两个配置,主配置文件是elasticsearch.yml,日志配置文件是logging.yml,elasticsearch调用log4j记录日志,所以日志的配置文件可以按

2021-11-04 14:43:31 4267

转载 ElasticSearch 入门教程

ElasticSearch 是一个高可用开源全文检索和分析组件。提供存储服务,搜索服务,大数据准实时分析等。一般用于提供一些提供复杂搜索的应用。ElasticSearch 提供了一套基于restful风格的全文检索服务组件。前身是compass,直到2010被一家公司接管进行维护,开始商业化,并提供了ElasticSearch 一些相关的产品,包括大家比较熟悉的 kibana、logstash 以及 ElasticSearch 的一些组件,比如 安全组件shield 。当前最新的ElasticSea

2021-11-04 14:42:50 583

转载 微服务?数据库?它们之间到底是啥关系?

过去几年来,“微服务架构”这个术语持续火热,它描述了一种将软件应用程序设计为可独立部署的服务套件的特定方式。尽管这种架构风格没有确切的定义,但围绕业务能力,自动化部署,网点智能以及语言和数据的分散控制等方面存在着某些共同特征。简而言之,微服务架构是一种将单应用程序作为一套小型服务开发的方法,每种应用程序都在其自己的进程中运行,并与轻量级机制(通常是HTTP资源的API)进行通信。这些服务是围绕业务功能构建的,可以通过全自动部署机制进行独立部署。这些微服务的将集中化管理部分降到最少,同时,微服务还可以用不

2021-11-04 14:41:11 585

转载 什么是最适合云数据库的架构设计?

分布式数据库技术发展多年,但是在应用、业务的驱动下,分布式数据库的架构一直在不断发展和演进。开源金融级分布式数据库SequoiaDB,经过6年的研发,坚持从零开始打造数据库核心引擎。在技术探索中,选择了更适合云数据库场景的架构和引擎设计。本文也将详细展开,介绍目前SequoiaDB的架构与设计理念。SequoiaDB近日也完成由嘉实投资领投的C轮融资。本轮的领投方为嘉实投资,启明创投与DCM作为早期投资方跟投。SequoiaDB巨杉数据库一直坚持技术驱动产品,专注打造金融级分布式数据库,成为

2021-11-04 14:40:34 228

转载 分布式数据库关联查询优化与实践

1前言分布式数据库从过去成为NoSQL的数据库发展开始,底层的数据存储结构变得多样化,包括KV、文档、列式等结构。各自有自己擅长的业务应用场景,例如操作型和分析型就是最简单的区分。然而SQL的支持成为了业界的共识。 SQL语言几十年的发展已经非常成熟,技术基础也非常广泛。全世界90%以上的开发,无论业务操作型还是分析型都以SQL的数据处理为主。无论底层数据存储结构是关系型还是非关系型都将对系统开发透明。开发者只需根据自己的业务场景来选择合适的数据库,但不需要改变自身的开发模式。本篇文章.

2021-11-04 14:39:25 1041

转载 金融级数据库提升商业银行核心竞争力

引言信息处理是银行业的核心,完善的数据和信息管理是商业银行进行有效风险防控和提升金融服务质效的基础。但随着银行业务的快速创新与发展,商业银行传统的IT系统和数据架构在性能和稳定性上均面临新挑战。同时,对于经营风险的银行来说,数据安全牵一发而动全身,业务传导的压力也带来了新的数据安全隐患和问题。在此背景下,商业银行传统数据库无论是从数据安全、性能、灵活可持续性还是性价比来讲,都已显得力不从心。在大数据时代下,商业银行IT技术架构应向分布式架构转型。以巨杉数据库为代表的金融级数据库,有足够强大的OLTP

2021-11-04 14:38:12 349

转载 关于MongoDB安全事件的一些思考

刚刚过去的这个周末,各位大数据和数据库从业者想必是被MongoDB的“安全事件”给刷屏了,MongoDB作为当前NoSQL在全球的领军人物,遭到这么大规模的黑客攻击,这也再次让我们对于新一代的开源数据库的数据安全问题产生了思考。而作为国内领先的新一代分布式数据库厂商,我们也来说说我们对这个事件的看法。事件回顾此前,众多无需身份验证的开放式 MongoDB 数据库实例正在遭受多个黑客组织的攻击,被攻破的数据库内容会被加密,受害者必须支付赎金才能找回自己的数据。攻击者利用配置存在疏漏的开源 MongoD

2021-11-04 14:37:37 262

转载 NoSQL性能测试:MongoDB VS SequoiaDB

作为NoSQL的一个重要类型,文档型NoSQL通常被认为是最接近传统关系型数据库的NoSQL。文档型NoSQL的核心是数据嵌套,这种设计可以从某 种程度上大大简化传统数据库复杂的关联问题。同时由于摆脱了关系模型里面的强一致性限制,文档型NoSQL还可以做到水平扩张与高可用。相比其他的 NoSQL类型,文档型NoSQL的应用范围要广泛的多。  常见的文档型NoSQL包括MongoDB、CouchDB等,其中MongoDB是一个高性能、开源、无模式的文档型数据库,它在许多场景下 可用于替代传统的关系型数据库

2021-11-04 14:36:58 406

转载 关系型到文档型的跨越:颠覆你对数据库数据模型的认识

1. 简介在文档型NoSQL数据库出现之前,许多开发者一直绞尽脑汁思考,希望能想出更好的处理关系型数据库技术的方法,如今他们可能要跳出那种思维而另辟蹊径。本篇白皮书将介绍关系型数据库和分布式文档型数据库的区别以及在应用开发上的一些建议。2. 为什么要转变?人们通常都不愿意改变,因为改变总是痛苦的,除非它能显著解决一些问题。随着大数据的发展,我们越来越有必要开始对数据模型做出转变了。换句话说,这种转变的需求愈发的强烈,因为大数据时代不管是对于数据库的扩展模型还是数据模型都要求极高的灵活性。

2021-11-04 14:36:10 1191 1

转载 如何快速上手一款开源软件

最近一篇比较火的文章中提到,techcrunch上有一篇文章,列举了当前最火的开源软件列表THE BATTERY OPEN-SOURCE SOFTWARE INDEX Rank Project Name Overall Project Rating Category Sample of Related Companies 1 Linux 100.00 IT Operations Red Hat, Ubuntu 2 Git 31.

2021-11-03 15:32:27 670

转载 从互联网+角度看云计算的现状与未来

现状互联网这个词已经无人不说,无人不讲,大概归功于罗振宇的罗辑思维对于互联网概念的极力宣扬,似乎不加上互联网三个字,你的企业宣传都张不开嘴。于是互联网+这个名词就随处可见了。支撑互联网化的一个重要的力量就是云计算,但现在的云已经外延被扩大的不知道到哪里去了,什么财务云,发票云等等等等,让我们这些做计算,网络,存储,中间件,大数据的,都没办法和这些外延清晰的区分出来。现在人工智能火了,也加入到了云计算的范畴中来,因而各种智慧云都出来了,智慧教育,智慧医疗,智慧交通等等等等。传统行业中干

2021-11-03 15:31:24 1456

转载 微服务化的基石——持续集成

一、持续集成对于微服务的意义:拆之前要先解决合的问题在很多微服务化的文章中,很少会把持续集成放在第一篇,因为大多数的文章都会将如何拆的问题,例如拆的粒度,拆的时机,拆的方式。为什么需要拆呢?因为这是人类处理问题的本质方式:将一个大的复杂问题,变成很多个小问题解决。所以当一个系统复杂到一定程度,当维护一个系统的人数多到一定程度,解决问题的难度和沟通成本大大提高,因而需要拆成很多个工程,拆成很多个团队,分而治之。然而当每个子团队将子问题解决了,整个系统的问题就解决了么?你可以想象

2021-11-03 15:30:15 260

转载 微服务的接入层设计与动静资源隔离

这个系列是微服务高并发设计,所以我们先从最外层的接入层入手,看都有什么样的策略保证高并发。接入层的架构画一个简图来讲包括下面的部分接下来我们依次解析各个部分以及可以做的优化。一、数据中心之外:DNS,HttpDNS,GSLB当我们要访问一个网站的服务的时候,首先访问的肯定是一个域名,然后由DNS,将域名解析为IP地址。我们首先先通过DNS访问数据中心中的对象存储上的静态资源为例子,看一看整个过程。我们建议将例如文件,图片,视频,音频等静态资源放在对象存

2021-11-03 15:29:05 416

转载 微服务化的数据库设计与读写分离

数据库永远是应用最关键的一环,同时越到高并发阶段,数据库往往成为瓶颈,如果数据库表和索引不在一开始就进行良好的设计,则后期数据库横向扩展,分库分表都会遇到困难。对于互联网公司来讲,一般都会使用Mysql数据库。一、数据库的总体架构我们首先来看Mysql数据的总体架构如下:这是一张非常经典的Mysql的系统架构图,通过这个图可以看出Mysql各个部分的功能。当客户端连接数据库的时候,首先面对的是连接池,用于管理用户的连接,并会做一定的认证和鉴权。连接了数

2021-11-03 15:28:10 442

转载 微服务化之无状态化与容器化

一、为什么要做无状态化和容器化很多应用拆分成微服务,是为了承载高并发,往往一个进程扛不住这么大的量,因而需要拆分成多组进程,每组进程承载特定的工作,根据并发的压力用多个副本公共承担流量。将一个进程变成多组进程,每组进程多个副本,需要程序的修改支撑这种分布式的架构,如果架构不支持,仅仅在资源层创建多个副本是解决不了问题的。很多人说,支撑双十一是靠堆机器,谁不会?真正经历过的会觉得,能够靠堆机器堆出来的,都不是问题,怕的是机器堆上去了,因为架构的问题,并发量仍然上不去。阻碍单体架

2021-11-03 15:27:13 702

转载 终于有人把云计算、大数据和人工智能讲明白了

今天跟大家讲讲云计算、大数据和人工智能。为什么讲这三个东西呢?因为这三个东西现在非常火,并且它们之间好像互相有关系:一般谈云计算的时候会提到大数据、谈人工智能的时候会提大数据、谈人工智能的时候会提云计算……感觉三者之间相辅相成又不可分割。但如果是非技术的人员,就可能比较难理解这三者之间的相互关系,所以有必要解释一下。一、云计算最初的目标我们首先来说云计算。云计算最初的目标是对资源的管理,管理的主要是计算资源、网络资源、存储资源三个方面。1管数据中心就像配电脑什么叫

2021-11-03 15:25:48 166

转载 有关容器的六大误区和八大正确场景

做容器的研究和容器化几年了,从最初对于容器的初步认识,到积攒了大量的容器迁移经验,并和客户解释了容器技术之后,发现原来对于容器的理解有大量的误解,而且容器并非虚拟机的替代,而是有十分具体的应用场景的。第一部分:容器的理解误区误区一:容器启动速度快,秒级启动这是很多人布道容器的时候经常说的一句话,往往人们会启动一个nginx之类的应用,的确很快就能够启动起来了。容器为啥启动快,一是没有内核,二是镜像比较小。然而容器是有主进程的,也即Entrypoint,只有主进程完全启

2021-11-03 15:24:43 256

转载 为什么 kubernetes 天然适合微服务

最近总在思考,为什么在支撑容器平台和微服务的竞争中,Kubernetes 会取得最终的胜出,事实上从很多角度出发三大容器平台从功能方面来看,最后简直是一摸一样。经过一段时间的思索,以及采访了从早期就开始实践 Kubernetes 的网易云架构师们后,我把反思所得总结为今天的这篇文章。一、从企业上云的三大架构看容器平台的三种视角一切都从企业上云的三大架构开始看起如图所示,企业上云的三大架构为 IT 架构、应用架构和数据架构,在不同的公司,不同的人、不同的角色,关注的重点不同

2021-11-03 15:22:51 283

转载 深入解读Service Mesh背后的技术细节

在Kubernetes称为容器编排的标准之后,Service Mesh开始火了起来,但是很多文章讲概念的多,讲技术细节的少,所以专门写一篇文章,来解析Service Mesh背后的技术细节。一、Service Mesh是Kubernetes支撑微服务能力拼图的最后一块Kubernetes是一个奇葩所在,他的组件复杂,概念复杂,在没有实施微服务之前,你可能会觉得为什么Kubernetes要设计的这么复杂,但是一旦你要实施微服务,你会发现Kubernetes中的所有概念,都是有用的。

2021-11-03 15:20:43 188

转载 OceanBase数据库创始人阳振坤分享征战6088万tpmC的艰辛之路

前言:中国人民大学常被誉为是“中国人文社会科学的最高学府”,其实人民大学也是“中国数据库的发源地”。由中国人民大学教授萨师煊与王珊合作编写的《数据库系统概论》是国内第一部系统阐明数据库原理、技术和理论的教材,也被公认为是国内数据库领域的经典权威教材。近期,蚂蚁金服高级研究员、OceanBase团队创始人阳振坤受邀在人民大学分享了分布式关系数据库OceanBase如何登顶国际TPC-C benchmark排行榜,并对这一突破背后的技术创新进行了深入的解析。数据库:技术和市场的“死亡之谷”数据库

2021-11-02 16:11:32 639

转载 TiDB 在中国银行 Zabbix 监控方案中的应用

本文的内容可能和之前的金融企业将 TiDB 应用在业务上的实践不同,下面主要介绍我们如何把 TiDB 应用在金融行业的后台运维监控上。Zabbix 作为一个老牌的开源监控方案,长期被用于生产实践。但是原生方案一般会采用 MySQL 作为后端存储,无法应对更大规模的监控。TiDB 兼容 MySQL 协议,可以替换 MySQL 从而增强 Zabbix 的大规模监控能力,实现新的监控方案 TiZabbix。TiZabbix 通过优化监控实施逻辑,弥补因 TiDB 和 MySQL 差异造成的诸多问题,成功完成了 1

2021-11-02 16:10:56 160

转载 建立成功的 Python 环境的 4 个基本工具

选择的这些工具将简化你的 Python 环境,以实现顺畅和一致的开发实践。Python 是一门出色的通用编程语言,经常作为第一门编程语言来教授。二十年来,我为它撰写了很多本书,而它仍然是我的首选语言。虽然通常来说这门语言是简洁明了的,但是(正如xkcd讽刺的),从来没有人说过配置 Python 环境也是一样的简单。一个复杂的Python环境。 xkcd在日常生活中有很多使用 Python 的方法。我将解释我是如何使用这些 Python 生态系统工具的。但坦诚的说,我仍在寻找更好的替代..

2021-11-02 16:10:20 189

转载 Service Mesh浅谈

什么是Service Mesh?Service Mesh是一种用来在分布式应用程序的不同组件之间共享数据的平台。要理解Service Mesh,必须要理解三个问题:为什么要构建分布式应用程序? 不同组件之间共享数据有什么挑战? Service Mesh如何解决这些挑战?分布式应用的泛滥—分布式并非是理想的构建应用程序的方式,如果在一台已知计算机上运行应用程序可以满足要求,完全没有必要将应用程序拆分成分布式,那样对自己,对应用程序都好。分布式应用的流行可以归结于互联网应用的发展和x86服

2021-11-02 16:09:45 252

转载 BGP优雅重启(Graceful Restart)

以BGP为代表的路由协议,从设计之初,就关注路由表的正确性,因为这是确保整个网络系统正常工作的最基本要求。因此每个BGP路由器,总是会以最快的速度收敛到整个网络最新的状态上。当一个BGP peer的BGP连接断开时,当前BGP路由器会认为BGP peer已经不能工作,进而会以最快的速度删除之前从这个BGP peer收到的路由。但这里其实有一些问题。首先,BGP连接断开了不一定代表路由器不能工作了。可能只是BGP所基于的TCP连接有问题,也可能是BGP keepalive消息丢了,但是路由器还是具备正常转

2021-11-02 16:09:09 2756

转载 IPv6 --- 基础

人都不愿意做改变,尤其是没有必要的改变。这句话套在IPv6上非常合适。尽管提出之初就是为了取代IPv4,但是在已经提出的二十年后的今天,IPv6的使用率还远不及IPv4。从下图[1]看,世界上IPv6普及率最好的国家是:美国,印度和比利时。全世界的IPv6普及率只有23.34%。对于我国来说,著名事件就是去年工信部联合各大企业发文要支持IPv6[2]。IPv4地址的耗尽--IPv6的出发点就是因为IPv4地址不够用了。而互联网IPv4耗尽的传闻,就像石油100年后要用完一样,是一个事实,但是

2021-11-02 16:08:37 437

转载 日均处理万亿数据,Flink在快手的应用实践与技术演进之路

作者介绍:董亭亭,快手大数据架构实时计算引擎团队负责人。目前负责 Flink 引擎在快手内的研发、应用以及周边子系统建设。2013 年毕业于大连理工大学,曾就职于奇虎 360、58 集团。主要研究领域包括:分布式计算、调度系统、分布式存储等系统。本次的分享包括以下三个部分:介绍 Flink 在快手的应用场景以及目前规模; 介绍 Flink 在落地过程的技术演进过程; 讨论 Flink 在快手的未来计划。一.Flink 在快手应用场景与规模1. Flink 在快手应用场景快手计

2021-11-02 16:07:29 332

转载 大数据仓库Hive原理与架构

前面讲到,MapReduce计算模型可以解决绝大多数的数据分析与数据挖掘任务,那么对于如下我们常见的一条SQL分析语句,MapReduce如何编程实现?SELECT pageid, age, count(1) FROM pv_users GROUP BY pageid, age;这是一条非常常见的SQL统计分析语句,统计不同年龄的用户访问不同网页的兴趣偏好,对于产品运营和设计很有价值。具体数据输入和执行结果如下图示例。group by输入输出示例左边是要分析的数据表,右边是分析结果。实

2021-11-02 16:06:30 233

转载 大数据平台架构

前面提到各种大数据技术的原理与架构,大数据计算通过将可执行的代码分发到大规模的服务器集群上进行分布式计算,以处理大规模的数据,即所谓的移动计算比移动数据更划算。但是这样的计算方式必然不会很快,即使一个规模不太大的数据集上的一次简单计算,MapReduce也可能需要几分钟,Spark快一点,也至少需要数秒的时间。而网站处理用户请求,需要毫秒级的响应,也就是说,要在1秒内完成计算,大数据计算必然不能实现这样的响应要求。但是网站应用又需要使用大数据实现统计分析、数据挖掘、关联推荐、用户画像等一系列功能。所

2021-11-02 16:05:54 858

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除