数据技术
文章平均质量分 91
介绍数据开发相关的技术栈
slivelight
这个作者很懒,什么都没留下…
展开
-
Flink 从0到1学习—— 分享四本 Flink 国外的书和二十多篇 Paper 论文
前言之前也分享了不少自己的文章,但是对于 Flink 来说,还是有不少新入门的朋友,这里给大家分享点 Flink 相关的资料(国外数据 pdf 和流处理相关的 Paper),期望可以帮你更好的理解 Flink。书籍1、《Introduction to Apache Flink book》这本书比较薄,简单介绍了 Flink,也有中文版,读完可以对 Flink 有个大概的了解。2、《Learning Apache Flink》这本书还是讲的比较多的 API 使用,不仅有 Jav转载 2022-04-12 21:59:15 · 2660 阅读 · 0 评论 -
Streaming System读后感
之前就提到过,最近在看《Streaming Systems》这本书。趁着过年期间再加几个周末,终于看完了。自从《Hadoop Application Architectures》之后,很少这样细致的看一本英文大部头了。我对流处理并不很熟悉,随便写写感想,可能有错误,也并不全是流处理相关的。关于本书本书并不是针对某个系统去讲解原理或使用,也并不是针对的讲某种技术,而是从比较抽象的角度去阐述“流处理系统应该是什么样子的”、“应该具备哪些能力”,可以作为系统设计时的参考。如果一定要类比的话,有点类转载 2022-04-12 21:48:33 · 288 阅读 · 0 评论 -
详解Flink作业提交流程
一、提交流程Flink 作业在开发完毕之后,需要提交到 Flink 集群执行。ClientFronted 是入口,触发用户开发的 Flink 应用 Jar 文件中的 main 方法,然后交给 PipelineExecutor(流水线执行器,在 FlinkClient 升成 JobGraph 之后,将作业提交给集群的重要环节。)#execue 方法,最终会选择一个触发一个具体的 PiplineExecutor 执行。提交模式又可分为: Detached:Flink Client 创建完集转载 2022-03-27 11:05:42 · 5225 阅读 · 0 评论 -
Streaming 102: The world beyond batch
ByTyler AkidauJanuary 20, 2016Editor's note: This is the second post in a two-part series about the evolution of data processing, with a focus on streaming systems, unbounded data sets, and the future of big data.See part one. Also,check out "Stream...转载 2021-12-18 17:14:16 · 830 阅读 · 0 评论 -
Streaming 101: The world beyond batch
ByTyler AkidauAugust 5, 2015Editor's note: This is the first post in a two-part series about the evolution of data processing, with a focus on streaming systems, unbounded data sets, and the future of big data.See part two. Also,check out "Streami...转载 2021-12-18 17:08:39 · 734 阅读 · 0 评论 -
Beam学习笔记
编程指导https://beam.apache.org/documentation/programming-guide/ 创建驱动程序,定义pipeline,包括输入、转换、输出,以及执行参数(主要包括runner,决定pipeline运行的后端) 创建pipeline,设置参数 创建初始的PCollection 对PCollection应用PTransform:可以对PCollection中每个元素进行修改、过滤、分组、分析等操作,输出新的PCollection;PTransform转载 2021-12-16 14:01:49 · 450 阅读 · 0 评论 -
JDBC与数据库连接池
JDBC简介JDBC 是Java应用程序用来连接关系型数据库的标准API,为多种关系型数据库提供一个统一的访问接口。Sun公司一共定义4种 JDBC 驱动类型,一般使用第4种,该类型的Driver完全由Java代码实现,通过使用socket与数据库进行通信。JDBC-ODBC Bridge driver (bridge driver),JDBC-ODBC桥驱动程序; Native-API/partly Java driver (native driver),JDBC本地API; All Ja转载 2021-09-03 15:08:25 · 1460 阅读 · 0 评论 -
MapReduce: Simplified Data Processing on Large Clusters论文翻译(MapReduce-OSDI04)
作者Jeffrey Dean and Sanjay Ghemawatjeff@google.com, sanjay@google.comGoogle, Inc摘要MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于key/value pair的数据集合,输出中间的基于key/value pair的数据集合;然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。现实世界中有很多满足上述处理模转载 2021-07-20 22:19:23 · 568 阅读 · 0 评论 -
大规模数据处理的演变
AI 前线导读:本文重点讨论了大数据系统发展的历史轨迹,行文轻松活泼,内容通俗易懂,是一篇茶余饭后用来作为大数据谈资的不严肃说明文。本文翻译自《Streaming System》最后一章《The Evolution of Large-Scale Data Processing》,在探讨流式系统方面本书是市面上难得一见的深度书籍,非常值得学习。更多干货内容请关注微信公众号“AI 前线”(ID:ai-front)大规模数据处理的演化历程大数据如果从 Google 对外发布 MapReduce 论文算.转载 2021-07-20 18:17:19 · 491 阅读 · 0 评论 -
数据库的ACID特性
15.1ACID 特性事务具有4个基本特征:分别是:原子性(Atomicity),一致性(Consistency),隔离性(isolation),持久性(Duration)、简称(ACID)隔离级别ACID这4个特征中,最难理解的是隔离性,在标准SQL规范中,定义了4个事务隔离级别,不同的隔离级别对事务的处理不同。4个隔离级别分别是:读未提交(READ_UNCOMMITTED),读已提交(READ_COMMITTED),可重复读(REPEATABLE_READ),顺序读(SERIALIZABL.转载 2021-05-12 21:58:13 · 474 阅读 · 0 评论 -
流式计算系统
流式计算系统系列:总纲流式计算系统方兴未艾。为了反映现实世界事件驱动的特性,为了对接消息队列事件驱动的设计,为了获得更好的时延,越来越多的业务采用流式计算系统来处理它们的数据。在批流统一的理论指导下,可想而知,未来的计算是属于流式计算的天下。从 2018 年年中参与 Flink 社区的开发,到在阿里巴巴 BLINK 团队和鹅厂数据中心的 FLINK 团队基于 Flink 支持了诸多流式计算作业的运行,这段时间的经历使我深深地体会到了自己作为本领域新人的局限性。虽然在我优秀的导师施晓罡博士...转载 2021-03-05 17:43:26 · 942 阅读 · 0 评论 -
effective sql 读书笔记
示例:https://github.com/TexanInParis/Effective-SQL第一章数据模型设计第一条确保所有表都有主键1、主键具有以下特征:唯一性、值非空、不可变、尽可能简单2、强制引用完整性:子表中具有非空外键的所有记录都必须在父表中找到相匹配的记录3、不建议使用复合主键,效率太低。复合主键比再添加一列作为主键要好。第二条避免存储冗余数据第三条消除重复数据组1、列昂贵,行便宜2、删除重复的数据组,可以使用唯一索引来防止出现意外的重复数据3...原创 2020-12-15 16:46:08 · 172 阅读 · 0 评论 -
一文了解Gauss数据库:开发历程、OLTP&OLAP特点、行式&列式存储,及与Oracle和AWS对比
摘要:华为在IT的底层架构,逐步搭建起自己的基础架构,建立华为生态。我们这次详解华为数据库,并对目前主流的数据库进行对比。只有对比,才能发现不同。数据库的重要性&华为推出新一代Gauss数据库数据库是计算机行业的基础核心软件,所有应用软件的运行和数据处理都要与其进行数据交互。数据库的开发难度,不仅体现在与其他基础器件的适配,更在于如何实现对数据高效、稳定、持续的管理。Oracle、微软的数据库之所以能长久不衰,一方面在于其强大的技术开发和产品升级迭代能力,另一方面在于其对数据库的Kno..转载 2020-11-28 12:05:12 · 7349 阅读 · 0 评论 -
大数据与AI相关的技术历程
掐指一算,从 OneAPM 离职也快一个月了,在 OneAPM 工作的种种,仿佛还像是在昨天。细数两年的工作经历,我很庆幸在恰当的时间点和这么一群有激情有活力的人共事。那么,是时候总结一下我在 OneAPM 做的牛(cai)逼(ji)事情了。大家好,今天由我来分享一下,我在上家公司做的 Ai 和 告警 相关的一些内容。首先,我先简单介绍一下,今天我要分享的两个项目: Ai 是 OneAPM 服务器端应用性能监控分析程序,它主要是能收集Java、CSharp、Python等偏后端语言的系统的一些转载 2020-11-02 18:00:12 · 829 阅读 · 1 评论 -
数据仓库、数据湖、流批一体
摘要数据仓库,数据湖,包括Flink社区提的流批一体,它们到底能解决什么问题?今天将由阿里云研究员从解决业务问题出发,将问题抽丝剥茧,从技术维度娓娓道来:为什么你需要数据湖或者数据仓库解决方案?它的核心难点与核心问题在哪?如果想稳定落地,系统设计该怎么做?业务背景1.1 典型实时业务场景首先我们来看一个典型的实时业务场景,这个场景也是绝大部分实时计算用户的业务场景,整个链路也是一个典型的流计算架构:把用户的行为数据或者数据库同步的Binlog,写入至kafka,再通过Fli...转载 2020-10-27 13:52:49 · 200 阅读 · 0 评论 -
Kafka设计解析
Kafka背景及架构介绍转载 2020-10-11 17:14:13 · 57 阅读 · 0 评论 -
2018年ETL工具比较
提取,转换和加载(ETL)工具使组织能够跨不同的数据系统使其数据可访问,有意义且可用。通常,公司在了解尝试编码和构建内部解决方案的成本和复杂性时,首先意识到对ETL工具的需求。在选择合适的ETL工具时,您有几种选择。您可以尝试组装开源ETL工具以提供解决方案。这种方法适用于某些情况,但公司经常发现自己需要更多 - 更多功能/特性,更多灵活性和更多支持。下一个选择是与现任提供商合作:一种能够很好地处理当今流行数据源和流的解决方案。现有供应商提供大型或知名品牌的稳定性和舒适性。第三类ETL工具是现代转载 2020-09-29 15:45:39 · 684 阅读 · 0 评论 -
Apache Nifi性能测试计划
1.概述1.1 目的本测试计划为Apache Nifi的性能测试计划,目的在于测试在应用Nifi做为数据接入工具时系统的数据完整性、异常状态下的数据恢复机制以及在不同负载状态下数据的响应时间。1.2 背景考虑到大数据管理平台有数据接入量大、数据源多样化、对数据的完整性和容错率要求高、延迟率低等特点,因此计划对Nifi的数据完整性、异常状态下的容错性以及服务器在高负载情况下的性能做一个全面的测试评估,以便于了解nifi的优点和缺陷,从而优化整个大数据管理平台架构。1.3 范围本次测试主要是基于现有转载 2020-09-13 11:26:17 · 840 阅读 · 0 评论 -
Apache nifi开发指南
1. Apache Nifi 概念1.1. NiFi简介Apache NiFi 是一个易于使用、功能强大而且可靠的数据拉取、数据处理和分发系统,用于自动化管理系统间的数据流。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑,支持从多种数据源动态拉取数据。NiFi原来是NSA的一个项目,目前已经代码开源,是Apache基金会的顶级项目之一。NiFi是基于Java的,使用Maven支持包的构建管理。 NiFi基于Web方式工作,后台在服务器上进行调度。用户可以为数据处理定义为一个流程,然后进.转载 2020-09-12 23:28:36 · 2020 阅读 · 1 评论 -
背压(Backpressure)机制
首先,从大的方面说,这篇文档的名字,虽然叫“Backpressure”(背压),但却是在讲述一个更大的话题,“Flow Control”(流控)。Backpressure只是解决Flow Control的其中一个方案。就像小学做的那道数学题:一个水池,有一个进水管和一个出水管。如果进水管水流更大,过一段时间水池就会满(溢出)。这就是没有Flow Control导致的结果。而解决Flow Control有几种思路呢?(1)Backpressure,就是消费者需要多少,生产者就生产多少。这有点类似于TCP转载 2020-09-12 19:51:11 · 991 阅读 · 0 评论 -
Kettle源码分析
Kettle 4.2源码分析第一讲--Kettle 简介1. PDI结构简介图 1‑1 PDI核心组件 Spoon是构建ETL Jobs和Transformations的工具。Spoon可以以拖拽的方式图形化设计,能够通过spoon调用专用的数据集成引擎或者集群。Data Integration Server是一个专用的ETL Server,它的主要功能有: 功能 描述 执行 通过Pentaho Data In.转载 2020-08-07 20:00:20 · 5357 阅读 · 0 评论 -
大数据学习资料
1、https://360ai.org/kettle/2878原创 2020-08-06 17:23:07 · 199 阅读 · 0 评论 -
大数据分类探究
译者:李毅 中国惠普大学资深培训专家** 摘要 **在本文中,我们提出了一个大数据的六维度分类方法。这个分类方法的主要目的是帮助决策制定者在计算、存储架构、数据分析技术、安全与隐私框架等多种选择中确定正确的方向。这其中需要分析的数据是分类的核心。简介大数据指的是与我们每一个人以及周边事物有关而且被政府和企业所收集的大量数字信息。这些数据不仅仅是由传统的信息交换软件通过台式机、移动电话等设备产生,也来自于各种环境中所嵌入的无数类型各异的传感器;它即来源于城市街道(摄像头、麦克风)或喷气引擎(温度传转载 2020-08-03 16:21:31 · 1482 阅读 · 0 评论 -
Spark源码解析:RDD
Spark源码解析:RDD0x00 前言本篇是Spark源码解析的第一篇,主要通过源码分析Spark设计中最重要的一个概念——RDD。本文会主要讲解RDD的主要概念和源码中的设计,并通过一个例子详细地讲解RDD是如何生成的和转换的。文章结构先回顾一下RDD的一些特征以及几个基本概念 RDD源码分析,整体的源码设计 举一个例子,通过这个例子来一步步地追踪源码。0x01 概念什么是RDDRDD(Resilient Distributed Dataset):弹性分布式数.转载 2020-05-22 00:23:04 · 287 阅读 · 0 评论