自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

翻译 AlphaFold3现已开源,诺奖AI工具触手可及

复杂的生物过程,例如蛋白质合成、信号转导和药物相互作用,依赖于复杂的分子结构和精确的相互作用。与其前身 AlphaFold 2 相比,AlphaFold 3 提供了更复杂的架构,能够预测生物分子复合物的联合结构,包括蛋白质、DNA、RNA、配体、离子甚至化学修饰。如基准测试所示,AlphaFold 3 的表现明显优于 AutoDock Vina 和 RoseTTAFold All-Atom 等传统工具,在蛋白质-配体相互作用和蛋白质-核酸复合物方面提供了更高的准确性。2024年11月12日 14:55。

2024-11-12 15:37:38 3

翻译 linux VS 轻量级多内核(IHK/McKernel)

研究目的:探索轻量级内核(LWK)操作系统在极端规模下是否能够超越Linux的性能。方法:开发了IHK/McKernel,一个为HPC设计的轻量级多内核操作系统,并在两台高端超级计算机上部署,与Linux性能进行比较。结果:在适度调整的Linux环境中,McKernel显著优于Linux(高达约2倍性能),而在Fugaku上,McKernel平均提速4%,部分实验中LWK性能超过Linux达29%。

2024-11-04 18:33:33 13

翻译 实现高性能、高密度封装和低功耗的超级计算机 Fugaku CPU A64FX

下图显示了A64FX的流水线,一个核心由指令控制单元、执行单元和一级缓存单元组成。指令控制单元执行指令提取、指令解码、指令乱序处理控制和指令完成控制。执行单元配备有两个定点功能单元(EXA/EXB)、两个用于地址计算和简单定点运算的功能单元(对于地址计算称为EAGA/EAGB,对于定点运算称为EXC/EXD)、两个用于执行SVE指令的浮点单元(FLA/FLB)和一个用于执行预测运算的预测单元(PRX)。这两个浮点单元都具有512位SIMD配置,并且可以在每个周期执行浮点乘法累加操作。

2024-10-28 19:19:02 31

原创 高性能计算应用优化实践之VASP

第一性原理计算是基于密度泛函理论,通过选择合适的交换关联赝势(GGA或LDA),然后基于迭代方法自洽求解Kohn-Sham方程,直到所求出的新的电荷密度与输入的电荷密度在收敛判据范围内,则认为迭代计算达到收敛,最后求得系统的总能量、能带、波函数、电荷密度、态密度等等。KPAR表示同时计算多少个K点,默认为1,可用“grep irre OUTCAR ”查看不可约K点数,体系的K点设置为不可约K点数的除数,最大可设置为体系的不可约K点数。NCORE决定轨道并行策略,单个轨道计算所使用的核数量。

2024-10-12 17:10:51 578

原创 高性能计算应用优化实践之WRF

WRF(Weather Research Forecast)模式是由美国国家大气研究中心(NCAR)、国家环境预报中心(NCEP)等机构自1997年起联合开发的新一代高分辨率中尺度天气研究预报模式,重点解决分辨率为1~10Km、时效60h以内的有限区域天气预报和模拟问题。WRF模式开发的目标是建立一个具有可移植、易维护、可扩充、高效、用户友好的模式。

2024-09-27 19:25:01 744

原创 高性能计算应用优化之并行与通信调优

例如,对与Allreduce通信,可以对节点进行分组,通过节点内Reduce,节点间Allreduce,然后节点内Bcast的步骤,完成 Allreduce 操作,这种方法充分利用了节点内通信的高带宽,弱化节点间的低网络带宽带来的影响。在程序实际运行中用户可以通过抓取MPI进程间通信信息,得到程序通信热点,对程序进程进行合理排布,将通信更加频繁的进程放置于节点内同一NUMA中,这样可在一定程度上减少通信消耗,进而提升运行性能。面对这种情况,可以将多次通信的数据合并到数组中,将多次通信合并为一次通信。

2024-09-21 17:29:42 509

原创 高性能计算应用优化之代码实现调优(二)

例如,下面的函数在堆栈上分配了n字节大小的八个对象,并将每个对象的指针存储在数组a的连续元素中。导致内存带宽的浪费。这种操作涉及到了CPU从数据总线中向内存中取值,通常速度远远慢于CPU本身的计算操作,也慢于CPU取出内部寄存器值的操作,很多时候,一个程序的计算瓶颈就在这些去内存的操作中,因此要尽量避免不必要的内存引用。例如4 个字节的变量,例如 float、int 类型的变量,放在 4 的整数倍地址上,8 个字节的变量,例如 long long、double 类型的变量,放在 8 的整数倍地址上。

2024-09-14 17:31:44 788

原创 高性能计算应用优化之代码实现调优(一)

本章将介绍代码实现过程中使用到的调优方法。在软件开发早期,开发者更多关注代码功能的实现,对代码的性能关注较少,随着代码规模增加,不合理的代码实现方法所带来的性能包袱逐渐凸显。因此,需要对原有代码实现进行优化,如修改不合理的访存顺序,使代码更易于被编译器优化等。

2024-09-07 18:01:03 898

原创 高性能计算应用优化之IO调优

并行IO软件库ROMIO提出了集合I/O的方式,它增加了一步全局通信,比如在写出数据的时候,先将各进程不连续的数据按照文件中的位置排列成有序的,再分别写出,进一步地,ROMIO中提供了每个客户端节点中选择一个或几个进程负责I/O的局地聚合方式,将全局通信变成了局地通信,减少了通信的开销。ROMIO被集成在了基于POSIX I/O接口开发的并行IO库——MPI-IO上,使得MPI-IO做到平台独立和接口易用,用程序可以通过MPI-IO及基于MPI-IO的pHDF5、pNetCDF等库实现并行IO。

2024-09-02 18:11:10 966

原创 高性能计算应用优化之运行参数优化

程序运行时系统的各项配置一般是按照普适性原则,尽可能满足大多数场景下的需求,并未针对特定场景进行优化,这虽然能够提高环境的通用性,但限制了性能提高的空间。运行时参数可以根据用户的需求来调整程序的运行方式和资源分配,从而提高应用程序的性能。根据程序运行的过程,可以依次在进程布局,通信方法,内存分配多个方面进行优化。通过调整运行时参数,用户可以控制进程在NUMA上的排布,避免不合理的跨NUMA访问;可以用于控制程序运行前预加载的动态库,通过预加载动态库的方式改变所使用的内存分配库;

2024-08-23 17:53:24 946

原创 高性能计算应用优化之编译参数优化

编译参数优化(Compiler Parameter Optimization)是指在编译器将源代码转化为可执行代码的过程中,通过对程序的分析和优化,使得生成的目标代码在执行速度、占用内存等方面都能够达到更好的效果。以Intel编译器的编译流程为例,在完成前方词法分析、语法分析后,编译器将进行过程间分析优化(主要为对函数调用等过程进行优化)、循环优化(如预取、向量化、循环展开等)、全局标量优化(入冗余消除、死代码消除等)和代码生成(向量化、流水线、全局调度等)。

2024-08-16 16:40:31 970

原创 高性能计算应用优化之系统参数优化

大部分高性能计算领域的程序代码均由C/C++或Fortran编写而成,上述三种语言是更为靠近系统底层的语言,可以通过自底向上的调优更精准地控制程序的行为,获得更高的运行性能。

2024-08-09 18:10:59 800

原创 高性能计算应用优化之BIOS参数优化

VT-d是一个位于CPU、内存和I/O设备之间的硬件设备,通常位于PCI设备树的根部,或者类似的位于I/O子系统的根部,当VT-d重定向硬件设备启用的时候,它会拦截位于它下面的所有I/O设备产生的中断请求和通过DMA方式对虚拟机内存访问的请求,然后通过查找中断重定向表或者I/O页表的方式(类似分页机制)来重新定位中断转发的目标LAPIC或者是I/O设备访问的目标主机物理内存地址。因此为了提高系统性能,启用预取后,系统将从根本上利用更多的内存访问流量,如果内存控制器不是关键的性能瓶颈,可以提高内存性能表达。

2024-08-08 17:30:42 1242

原创 工业软件“皇冠上的明珠”之Altair

Radioss 在研发中心以及汽车、航空航天、电子和国防领域的公司获得广泛认可,能够理解并高效、稳健地预测复杂环境中的组合多物理场行为,例如耐撞性、飞机水上迫降、终端弹道学或爆炸对车辆的影响。Op求解功能包括:静动力分析、线性非线性、模态分析、模态综合、屈曲分析、惯性释放、稳态和瞬态热应力分析等,多用于疲劳分析,复合材料分析,热传导分析等。除此之外,还有高度灵活、开放的二次开发平台,依托HyperMesh,HyperView的前后处理功能,去实现集成化与系统化、流程自动化、工具自动化,如下图所示。

2024-08-03 10:08:24 1839

原创 工业软件“皇冠上的明珠”之Ansys

Ansys软件介绍

2024-07-27 18:05:24 2786

原创 数值天气预报与AI气象大模型

随着模式复杂度和分辨率的提高,传统数值模式在气候变化研究和气候预测方面取得了迅速的进展,但也面临一些挑战,需要得到数据同化、集合耦合、高性能计算和不确定性分析等多方面的支持。气象大模型不断涌现,一些科技公司如华为、英伟达、DeepMind、谷歌、微软等,以及国内外高校如清华大学、复旦大学、密歇根大学、莱斯大学等发布了多个涵盖临近预报、短时预报、中期预报和延伸期预报等不同领域的气象大模型。然而,相对有限的计算资源,限制了模型分辨率的提高和更频繁的模型运行,从而影响了预报的详细程度和及时性。

2024-07-20 18:10:33 1138

原创 软件部署-NEMO在LIinux系统上的安装教程

NEMO(Nucleus for European Modelling of the Ocean)海洋模式是一个原始方程海洋环境模式,采用正交曲线坐标,Arkawa-C网格,垂直坐标采用z坐标或S坐标。其物理参数化方案和数值算法使得NEMO具备了支持更高的分辨率、支持更高的并行度、并行IO技术和单双向多层嵌套等特点,成为国际上用于海洋学研究、海洋季节性预测和气候研究的最新模型框架。本文提供NEMO在Linux系统上的基础安装教程

2024-07-12 18:18:20 896

原创 人工智能增强型高性能计算(AHPC)与科技膨胀

人工智能增强型高性能计算(简称AHPC)已开始在科学宇宙中拓展新的空间,而这一空间过去是传统高性能计算数值方法无法进入的。

2024-07-03 16:13:50 990

原创 WRF新手村

WRF新手村:从编译器、依赖库安装开始,完整的运行一次WRF算例

2024-06-28 16:34:32 871

原创 HPC助力超导材料发现

从物理界顶流“超导”的科普到HPC如何助力超导材料发现

2024-06-25 14:55:25 622

原创 AMD ZEN5 如期而至

在CPU上进行AI推理是最近两年的一个不够火热的热点,从AMD这次重点增强AVX 512的吞吐能力来看,CPU芯片设计者们确实不想自己未来在各种PU的浪潮下,被抛下。CPU做推理还是又一定的先天优势的,不过相较用GPU推理,在性能上还是有明显的差距,这次我们先不讨论这些。不过128核心打64核心并行推理,多少有点不太讲究。更宽的指令并行能力 相较zen 4 有两倍的指令带宽,L1于L2之间的数据带宽L1到FP单元的数据带宽都是zen4的两倍,全面支持avx512指令相较zen 4,运算能力增长仍是2倍。

2024-06-17 16:35:46 220

翻译 Nvidia,AMD,Intel Computex上卷 卷 卷 ~

从最近举办的Computex 2024,窥见目前主流的算力硬件厂商未来的发展方向:Nvidia,AMD主要推进GPUs,Intel则更专注提升X86的能效

2024-06-14 15:52:27 39

原创 Gromacs -Linux系统安装教程,包含CPU和GPU版本

A800的卡使用cuda-12.0时不支持compute_35和compute_37的微架构,需要修改gromacs/cmake/gmxManageNvccConfig.cmake文件,注释掉编译有关arch=compute_35,compute_37等选项。GROMACS的安装指南和用户平台分别有CPU版和GPU版,可以利用CPU或GPU进行计算,特别是在使用GPU时,单GPU卡的运行效率较高。显示如下内容,表示cuda驱动已安装,如果未安装,则需要先根据实际配置的显卡安装对应的驱动。

2024-06-07 17:13:01 4076

原创 软件部署第三弹-Lammps在linux系统部署安装

LAMMPS(Large-scale Atomic/Molecular Massively Parallel Simulator),即大规模原子分子并行模拟器,是一款由美国Sandia国家实验室开发的经典分子动力学代码。它主要用于模拟气体、液体和固体状态下粒子的集合行为,能够处理全原子、聚合物、生物、金属、粒状和粗粒化体系。LAMMPS是目前用于分子动力学模拟的常用软件之一

2024-06-01 15:25:56 794

原创 软件部署第二弹-Quantum Espresso在linux系统上的安装教程

如何在linux系统下快速部署Quantum Espresso

2024-05-27 20:34:44 1245

原创 从0到1教你如何在Linux系统部署vasp,亲测有效

https://www.intel.cn/content/www/cn/zh/developer/tools/oneapi/toolkits.html#gs.8xfcc9选择需要安装的工具包,需要安装:Base Toolkit和HPC Toolkit两部分。2.intelmpi-2021.3不支持编译多线程版本的vasp,需要cp -r arch/makefile.include.intel makefile.include。安装完成:默认安装路径在/opt/intel/oneapi/xxx。

2024-05-18 14:22:06 2453

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除