分布式计算
文章平均质量分 92
远洋之帆
机器学习 人工智能 数学 数据可视化 机器人
展开
-
实现mini智能助理—模型训练
1.介绍了预训练大模型的训练流程是怎么样的2.介绍了常用的训练手段3.详细介绍了两种主流的预训练手段原理:promt、delta4.给了一个multi-gpu chatglm训练的例子原创 2023-03-29 13:59:53 · 6188 阅读 · 2 评论 -
大模型分布式系统
大模型训练,是工程和算法的合力作用。对于工程分布式计算系统是绕不过去的核心中的核心。这篇文章和大家分享分布式时候内存消耗在哪、zero策略、流水线策略、动态策略原创 2023-03-07 20:36:41 · 2092 阅读 · 0 评论 -
大模型相关技术综述
大模型相关技术综述原创 2023-02-15 22:30:06 · 10445 阅读 · 8 评论 -
数据中台驱动理念
第二页PPT讲数据中台之前我们来看看到底是出现了什么问题,导致他们提出了数据中台这么个概念在数据中台之前,大家更多提的是数据平台数据平台也就是大家可用在这个台子上做数据的加工、处理、利用已经有这么个台子了也说明数据利用已经被大家接受了在数据利用过程中大家发现问题,数据除了创造价值也慢慢成为了一种负担巨量的数据耗费巨量的存储加工这些数据也花费巨量的算力数据开发要在这巨量的数据表中找到有用的表也需要花费大量时间在使用这些表时候还需要花很大代价了解背后加工的原理...原创 2022-01-22 17:40:29 · 1664 阅读 · 0 评论 -
paxos框架简介——从经典到演进
最近几天一直在看分布式一致性算法,paxos已经成为这个领域的事实标准,所以肯定绕不过它。那paxos到底是什么,是一个具体算法还是一个协议框架。个人认为应该是一个解决分布式一致性问题的框架,后期的大部分工作都是在这个框架思路上做的优化。既然是个框架那他的核心思路是什么呢,我们是否可以用数学的方式去描述它,把它转换成一个带约束的优化问题(来看待后续的优化方案)。这个框架要解决什么问题:发生...原创 2020-03-07 11:52:04 · 412 阅读 · 0 评论 -
从集群资源管理和任务调度角度看spark
讲spark的文章很多,切入点无非就是三个:框架应用、源码和原理讲解、性能优化个人觉得上面的三个视角切入点都过于偏重细节,比较适合行业工程师(应用开发、研发、维护);对于初入行的学习者和非工程师角色比较不友好,本文尝试从一个更高视角去介绍spark,尽量让大家明白这个东西是个什么,如何演化过来的;为什么它会长成现在模样,包括那些模块。0. 集群资源管理与任务调度系统出现的背景(1)出现...原创 2020-02-11 12:27:00 · 1432 阅读 · 0 评论 -
高并发架构演进之路(下)——一体化架构到微服务
一体化机构问题:1、在技术层面上,数据库连接数可能成为系统的瓶颈;资源极限,扩展困难2、继续演进研发成本、共同成本高,业务耦合大,查问题复杂,团队管理困难3、运维成本大,编译、测试上线复杂解决方案:按照业务做横向拆分的方式,解决了数据库层面的扩展性问题;将与业务无关的公用服务抽取出来,下沉成单独的服务。服务拆分时要遵循哪些原则?服务的边界如何确定?服务的粒度是怎...原创 2019-11-29 17:26:43 · 509 阅读 · 2 评论 -
高并发系统演进之路(上)--基础篇
高并发、高可用、可扩展是互联网技术井喷后软件系统演进的基本要求。性能指标:度量性能的指标是系统接口的响应时间:平均值、最大值、分位数高并发下的性能优化:1)提高系统的处理核心数, 但随着并发进程数的增加,并行的任务对于系统资源的争抢也会愈发严重。在某一个临界点上继续增加并发进程数,反而会造成系统性能的下降,这就是性能测试中的拐点模型2)减少单次任务响应时间要看你的...原创 2019-11-29 16:38:23 · 363 阅读 · 0 评论 -
分布式系统经典论文汇总
分布式系统领域有着最令人费解的理论,全链路的不确定性堪比物理中的量子力学。同时,分布式系统领域又有着当代最宏伟的计算机系统,Google、Facebook、亚马逊遍布全球的系统支撑着我们的信息生活。显然,能够征服分布式系统的,都是理论和实践两手抓两手都要硬的强者。然而,分布式系统领域还有着最高的上手门槛,没有大规模的基础设施、没有潮水般的流量,分布式领域幽灵般的问题并不会浮出水面。那么,我们应该如...转载 2019-11-26 10:41:28 · 5701 阅读 · 5 评论 -
spark源码阅读——搭建和源码工程师一样的开发环境
阅读好的开源项目是最好的学习code的方法,在一个大型项目中会涉及到软件工程的方方面面。项目代码作为最终的落地物质,其中必然会留下很多顶尖工程师、架构师、设计团队思考的痕迹;如果从这个层面去看一个开源项目,其实至少包括三个方面:1)这个项目是如何架构的,会用到哪些关键技术2)实现这些设计是怎么落到code层面,利用了哪些技巧3)利用了哪些好的库和管理的工具方法理念学习...原创 2019-11-20 15:05:35 · 273 阅读 · 0 评论 -
Spark2源码阅读——内存分配
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuff...转载 2019-11-15 16:58:09 · 164 阅读 · 0 评论 -
Spark2源码阅读——内存分配
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuff...转载 2019-11-15 16:57:05 · 138 阅读 · 0 评论 -
Spark2源码阅读——Rpc心跳(3)
一. Spark 心跳概述前面两节中介绍了 Spark RPC 的基本知识,以及深入剖析了 Spark RPC 中一些源码的实现流程。具体可以看这里:Spark RPC 框架源码分析(二)运行时序 Spark RPC 框架源码分析(一)简述这一节我们来看看一个 Spark RPC 中的运用实例 -- Spark 的心跳机制。这次主要还是从代码的角度来看。image我们首先要...转载 2019-11-15 16:36:01 · 424 阅读 · 0 评论 -
Spark2源码阅读——Rpc(2)
一. Spark RPC 概述概述上一篇我们已经说明了 Spark RPC 框架的一个简单例子,以及一些基本概念的说明。这一篇我们主要讲述其运行时序,从而揭露 Spark RPC 框架的运行原理。我们将分为两部分,分别从服务端和客户端来看。所用 spark 版本:spark 2.1.0二. Spark RPC 服务端我们以上一篇 HelloworldServer 为线索,深入到 S...转载 2019-11-15 16:27:49 · 136 阅读 · 0 评论 -
Spark2源码阅读——Rpc(2)
一. Spark RPC 概述概述上一篇我们已经说明了 Spark RPC 框架的一个简单例子,以及一些基本概念的说明。这一篇我们主要讲述其运行时序,从而揭露 Spark RPC 框架的运行原理。我们将分为两部分,分别从服务端和客户端来看。所用 spark 版本:spark 2.1.0二. Spark RPC 服务端我们以上一篇 HelloworldServer 为线索,深入到 S...转载 2020-02-17 00:25:41 · 153 阅读 · 0 评论 -
Spark2源码分析系列——RPC(1)
一. Spark rpc概述首先说明RPC,引用百度百科:RPC(Remote Procedure Call)—远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。Spark RPC可以说 是 Spark 分布式集群的基础,若是将 Spark 类比为一个人的话,Spar...转载 2019-11-15 16:01:16 · 136 阅读 · 0 评论 -
Spark Standalone架构设计要点分析
Apache Spark是一个开源的通用集群计算系统,它提供了High-level编程API,支持Scala、Java和Python三种编程语言。Spark内核使用Scala语言编写,通过基于Scala的函数式编程特性,在不同的计算层面进行抽象,代码设计非常优秀。RDD抽象RDD(Resilient Distributed Datasets),弹性分布式数据集,它是对分布式数据集的一种内存...转载 2019-11-05 15:13:42 · 192 阅读 · 0 评论 -
spark任务调度——梳理龙骨
一直对高性能分布式计算很感兴趣,想找个时间好好梳理下这方面知识点。三个月前终于开始行动,每天利用地铁和午休时间啃了些论文和微软亚洲研究院出版《分布式机器学习-算法、理论与实践》、《spark内核设计的艺术-架构设计与实现》《深入理解spark:核心思想与源码》、李沐博士的几篇paramserver的论文,以及广读csdn、知乎这方面博客。最近在结合开源项目spark、ps-lite、以及基于这些框...转载 2019-11-01 19:25:35 · 235 阅读 · 0 评论 -
tensorflow分布式框架
TensorFlow又是好久没有写博客了,上班以来,感觉时间过得飞快,每天时间很紧,过得有点累,不知道自己的博客能坚持到何时,且行且珍惜。本片博文是参考文献[1]的阅读笔记,特此声明TensorFlow,以下简称TF,是Google去年发布的机器学习平台,发布以后由于其速度快,扩展性好,推广速度还是蛮快的。江湖上流传着Google的大战略,Android占领了移动端,TF占领神经网络提供...转载 2019-10-25 13:57:32 · 328 阅读 · 0 评论 -
分布式机器学习框架
在大规模数据上跑机器学习任务是过去十多年内系统架构师面临的主要挑战之一,许多模型和抽象先后用于这一任务。从早期的MPI,到后来的Hadoop,乃至于目前使用较多的Spark,都曾被广泛应用于大规模机器学习处理任务。John Langford曾经在他的博客(机器学习领域最好的博客之一)上总结和对比了主流的分布式机器学习框架的抽象[1]:MPI Gradient Aggregation:主要缺点是...转载 2019-10-25 13:35:00 · 4382 阅读 · 0 评论 -
parameter server介绍
1. Parameter Server介绍参数服务器是一个编程框架,用于方便分布式并行程序的编写,其中重点在于对大规模参数的分布式存储和协同的支持。机器学习系统相比于其他系统而言,有一些自己的独特特点。例如:迭代性:模型的更新并非一次完成,需要循环迭代多次 容错性:即使在每个循环中产生一些错误,模型最终仍能收敛 参数收敛的非均匀性:有些参数几轮迭代就会收敛,而有的参数却需要上百轮迭...原创 2019-10-24 16:22:09 · 6323 阅读 · 0 评论