HPC
文章平均质量分 86
容器技术爱好者
关注kubernetes、Docker及相关资源调度管理技术。
展开
-
OpenLava——EDA的最佳支撑平台
半导体设计制造生态系统纵观国内外半导体设计制造生态系统,可大致分为四个部分:以高通、联发科技、苹果、德州仪器等为代表的设计企业,其拥有或购买核心IP,借助设计工具完成半导体产品的设计。以台积电、中芯国际等为代表的生产企业,其多为设计企业代工;当然,有些企业兼备设计与生产双重角色,如Intel、三星、华为等。以cadence、synopsys、华大九天等为代表的E原创 2017-02-16 15:12:53 · 36565 阅读 · 0 评论 -
HPC开源项目OpenLava介绍
关于OpenLavaOpenLava是100%免费、开源、兼容IBM® Spectrum LSFTM的工作负载调度器,支持各种高性能计算和分析应用。伴随成千上万次的下载和安装,OpenLava的可扩展性和健壮性已经在拥有数十万个内核和和几百万作业的集群上得到了验证。由于OpenLava的命令行和文件格式与大多数LSF功能相兼容,因此用户和管理员都将非常熟悉OpenLava的操作。组织和原创 2017-02-27 09:11:12 · 37062 阅读 · 1 评论 -
在OpenLava中探索Fairshare调度
分享的好处非常明显。无论我们是共享一杯苏打,公寓还是HPC集群,分享都可以降低我们的费用。OpenLava 的功能之一是fairshare调度。对于不熟悉fairshare调度的用户,这个新特性指的是根据策略共享资源。如果一个集群花费了一百万美元,而部门A贡献了800,000美元,而部门B贡献了200,000美元,基于80/20(当有争用时)共享资源可能被认为是公平的。Fairshare不意味原创 2017-03-09 15:04:29 · 15082 阅读 · 0 评论 -
在OpenLava中管理并行作业
Blaunch,并行作业远程任务启动器HPC环境本质上是复杂的,这对并行工作负载而言尤其如此。若能使MPI作业在工作负载管理器的控制下可靠且可预测地运行,将大大有助于缓解一系列潜在问题,并使HPC环境更具可靠性。在理想环境中,启动和管理MPI任务的过程将在所有工作负载管理器和MPI实现中保持一致。在现实环境中,事情并不总是那么简单。好消息是,在OpenLava中 运行和管理并行作业就简单多原创 2017-03-07 09:35:54 · 15911 阅读 · 0 评论 -
在100,000个核心集群上运行100万个作业
随着客户在更大的环境中部署OpenLava。可扩展性,吞吐量和性能变得越来越重要。为了满足这些领域的客户需求,OpenLava 提供了一些重要的增强功能:o 并行化作业事件处理以加速集群启动并最小化停机时间。o 增强的守护进程间通信,提高效率和性能。o 其他调整参数,为集群管理员提供其他工具,以提高性能,响应速度和可扩展性。在发布OpenLava之前,天云软件使用HPC原创 2017-04-01 08:16:20 · 16854 阅读 · 0 评论 -
使用OpenLava运行MPI作业
介绍OpenLava是一个开源的,IBM Platform LSF工作量兼容管理器,可以安排串行和并行作业。MPI(消息传递接口)是高性能计算(HPC)应用中广泛使用的编程接口,用于并行化大规模问题的执行。有多个常用的MPI实现。本文档介绍如何使用OpenLava运行MPI应用程序。大多数MPI实现支持与常用工作负载管理器的集成。在大多数情况下,这些集成使用工作负载管理器特定的远程任务启动原创 2017-03-16 08:48:58 · 15930 阅读 · 0 评论 -
分布式深度学习的两种集群管理与调度的实现方式简介
为什么需要集群管理与调度上文我们简单介绍了深度学习、分布式CPU+GPU集群的实现原理,以及分布式深度学习的原理,我们简单回顾一下:分布式CPU+GPU集群的实现:GPU集群并行模式即为多GPU并行中各种并行模式的扩展,如上图所示。节点间采用InfiniBand通信,节点间的GPU通过RMDA通信,节点内多GPU之间采用基于infiniband的通信。分布深度学习框架的实现:如下图所示,在tens原创 2017-05-12 21:53:30 · 26792 阅读 · 1 评论 -
深度学习简介,GPU计算的原理,分布式机器学习原理
深度学习简介深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习采用的模型为深层神经网络(Deep Neural Networks,DNN)模型,即包含多个隐藏层(Hidden Layer,也称隐含层)的神经网络(Neural Networks,NN)。深度学习利用模型中的原创 2017-05-04 20:48:58 · 24349 阅读 · 0 评论 -
分布式机器学习的集群方案介绍之HPC实现
机器学习的基本概念机器学习方法是计算机利用已有的数据(经验),得出了某种模型(迟到的规律),并利用此模型预测未来(是否迟到)的一种方法。目前机器学习广泛应用于广告投放、趋势预测、图像识别、语音识别、自动驾驶和产品推荐等众多领域。在确定了问题模型之后,根据已知数据寻找模型参数的过程就是训练,训练过程就是不断依据训练数据来调整参数的迭代,从而使依据模型作出的预测结果更加准确。HPC的基本概念HPC就是原创 2017-05-05 17:30:35 · 47418 阅读 · 3 评论