集群计算技术-CSDN博客

原创 Manus-横空出世的AI Agent

北京时间3月6日凌晨，通用型AI Agent产品Manus是由中国团队研发的全球首款具备全链路自主执行能力的AI智能体，其核心突破在于将复杂任务的规划、拆解与执行整合为端到端的自动化流程，真正实现“像人类一样思考和行动”的目标。Manus 的产品名，意思为“手”，来自拉丁文 “mens et manus” —— 知行合一。是一个通用的AI代理，可将想法转换为行动。

2025-03-10 11:52:11 1168

FP8混合精度训练，DeepSeek采用了混合精度框架，使用细粒度量化策略、低精度优化器状态等方法以实现增强精度、低精度存储和通信，同时DeepSeek向硬件厂商也提出了硬件设计的相关建议。多词元预测训练(MTP)是指，在训练过程中，模型不仅预测下一个词元，同时预测多个未来的词元。MLA 的核心是对注意力键和值进行低秩联合压缩，减少推理过程中的 a 键值缓存（KV cache），从而降低推理时的内存占用。DeepSeek公司和模型的基本简介，以及DeepSeek高性能低成本获得业界的高度认可的原因。

2025-03-03 09:55:51 1221

原创 AI新顶流-DeepSeek 技术大揭秘

DeepSeek无疑是这个春节档AI圈的顶流，2024年12月发布DeepSeek-V3作为全国产自研模型，以其高性能，低价格火爆AI领域。

2025-02-10 09:26:19 675

原创年度大盘点：2024年度科技热点流量

2024年，全球科技发展迅速，近期，各大媒体陆续评选出2024年国内国际科技进展新闻或发布年度科技进展回顾盘点。小编也借此发布非官方2024年科技大事纪，回顾下2024年那些热点流量。

2025-01-24 16:44:55 1181

原创 AMD uprof 快速抓取应用运行时CPU 特征数据

也可让应用分析人员快速了解应用当前的表现是否符合预期，比如是否正确使用当前处理器可支持的最高SIMD扩展指令集，以及相关比例。AMD uprof是一款性能分析工具套件，适用于在Windows，Linux，FreeBSD操作系统上运行的X86的应用程序。示例：/tmp/AMDuProfPcm-Timeseries_Jan-02-2025_08-41-49。第一页是针对CPU流水线分析的性能瓶颈，也就是TopDown分析法在AMD CPU上的应用情况。Memory 选项包含，内存带宽时序图和远程访问的情况。

2025-01-13 09:19:06 948

翻译 Intel 性能分析“全家桶” For HPC(四)

Intel Advisor是一个源码级的性能分析工具，可支持对C, C++, Fortran, SYCL*, OpenMP*, OpenCL™ code, and Python*的源码级分析。分析目标如下：1、高性能 CPU 代码：分析程序执行，为实现高效的线程化、矢量化和内存设计提出建议。2、高效的 GPU 代码：通过分析确认代码中可利用GPU加速的部分，并从计算和内存两方面提出建议。3、程序流程分析：可视化的分析异构应用，并分析依赖关系计算。

2025-01-11 17:03:40 264

翻译 Intel 性能分析“全家桶” For HPC(三)

Intel® Trace Analyzer and Collector(ITAC)是Intel针对MPI应用的分析工具，具有以下这些功能。ITAC是Intel® oneAPI HPC Toolkit的一部分定位潜在缓冲区重叠和死锁。可视化并行应用程序行为。分析MPI相关统计信息和负载平衡。发现通信热点，了解通信模式、参数和性能数据。

2024-12-21 16:00:28 213

翻译 Intel 性能分析“全家桶” For HPC(二)

首先通过Application Performance Snapshot（APS,集成于Vtune）对应用的性能表现进行一般性的描述，包括执行时间，平均IPC，CPU 频率，浮点计算能力，向量化比例分析，MPI 耗时分析，Memory相关的stall分析，Disk 读写信息以及内存情况（应用实际内存占用申请的虚拟内存）。第二步，根据提示分别对多节点的MPI 通信（ITAC），单节点内的程序执行情况（VTUNE，微架构层面分析）以及程序在多线程，向量化分布进行分析（Advisor，代码层面）。

2024-12-14 19:07:33 351

原创 Intel 性能分析“全家桶” For HPC(一)

本系列是对于HPC应用性能分析涉及的主要方法论及Intel主流工具分享。理解这些方法论将有助于对性能分析结果的理解。同时方法论也可以推广到其他的硬件平台的分析上。除此之外后面也将介绍如何用Vtune, Advisor以及ITAC进行性能分析，以及在性能分析过程中这三种性能工具的区别与分工。

2024-12-06 18:03:49 1527

翻译 SC24演讲分享：《Scaling Deep Learning on AMD GPUs》

本周分享SC24演讲来自橡树岭国家实验室&DOE《Scaling Deep Learning on AMD GPUs》

2024-11-28 17:30:05 165

翻译超算前沿速递：TOP500超级计算机榜单公布

第 64 版 TOP500 榜单显示，El Capitan 已夺得榜首位置，成为继 Frontier 和 Aurora 之后第三个达到E级计算能力的系统。此后，这两个系统分别跌至第 2 位和第 3位。

2024-11-23 16:07:32 1008

翻译 AlphaFold3现已开源,诺奖AI工具触手可及

复杂的生物过程，例如蛋白质合成、信号转导和药物相互作用，依赖于复杂的分子结构和精确的相互作用。与其前身 AlphaFold 2 相比，AlphaFold 3 提供了更复杂的架构，能够预测生物分子复合物的联合结构，包括蛋白质、DNA、RNA、配体、离子甚至化学修饰。如基准测试所示，AlphaFold 3 的表现明显优于 AutoDock Vina 和 RoseTTAFold All-Atom 等传统工具，在蛋白质-配体相互作用和蛋白质-核酸复合物方面提供了更高的准确性。2024年11月12日 14:55。

2024-11-12 15:37:38 418

翻译 linux VS 轻量级多内核(IHK/McKernel)

研究目的：探索轻量级内核（LWK）操作系统在极端规模下是否能够超越Linux的性能。方法：开发了IHK/McKernel，一个为HPC设计的轻量级多内核操作系统，并在两台高端超级计算机上部署，与Linux性能进行比较。结果：在适度调整的Linux环境中，McKernel显著优于Linux（高达约2倍性能），而在Fugaku上，McKernel平均提速4%，部分实验中LWK性能超过Linux达29%。

2024-11-04 18:33:33 255

翻译实现高性能、高密度封装和低功耗的超级计算机 Fugaku CPU A64FX

下图显示了A64FX的流水线，一个核心由指令控制单元、执行单元和一级缓存单元组成。指令控制单元执行指令提取、指令解码、指令乱序处理控制和指令完成控制。执行单元配备有两个定点功能单元（EXA/EXB）、两个用于地址计算和简单定点运算的功能单元（对于地址计算称为EAGA/EAGB，对于定点运算称为EXC/EXD）、两个用于执行SVE指令的浮点单元（FLA/FLB）和一个用于执行预测运算的预测单元（PRX）。这两个浮点单元都具有512位SIMD配置，并且可以在每个周期执行浮点乘法累加操作。

2024-10-28 19:19:02 561

原创高性能计算应用优化实践之VASP

第一性原理计算是基于密度泛函理论，通过选择合适的交换关联赝势(GGA或LDA)，然后基于迭代方法自洽求解Kohn-Sham方程，直到所求出的新的电荷密度与输入的电荷密度在收敛判据范围内，则认为迭代计算达到收敛，最后求得系统的总能量、能带、波函数、电荷密度、态密度等等。KPAR表示同时计算多少个K点，默认为1，可用“grep irre OUTCAR ”查看不可约K点数，体系的K点设置为不可约K点数的除数，最大可设置为体系的不可约K点数。NCORE决定轨道并行策略，单个轨道计算所使用的核数量。

2024-10-12 17:10:51 2228

原创高性能计算应用优化实践之WRF

WRF（Weather Research Forecast）模式是由美国国家大气研究中心（NCAR）、国家环境预报中心（NCEP）等机构自1997年起联合开发的新一代高分辨率中尺度天气研究预报模式，重点解决分辨率为1～10Km、时效60h以内的有限区域天气预报和模拟问题。WRF模式开发的目标是建立一个具有可移植、易维护、可扩充、高效、用户友好的模式。

2024-09-27 19:25:01 1291

原创高性能计算应用优化之并行与通信调优

例如，对与Allreduce通信，可以对节点进行分组，通过节点内Reduce，节点间Allreduce，然后节点内Bcast的步骤，完成 Allreduce 操作，这种方法充分利用了节点内通信的高带宽，弱化节点间的低网络带宽带来的影响。在程序实际运行中用户可以通过抓取MPI进程间通信信息，得到程序通信热点，对程序进程进行合理排布，将通信更加频繁的进程放置于节点内同一NUMA中，这样可在一定程度上减少通信消耗，进而提升运行性能。面对这种情况，可以将多次通信的数据合并到数组中，将多次通信合并为一次通信。

2024-09-21 17:29:42 1084

原创高性能计算应用优化之代码实现调优(二)

例如，下面的函数在堆栈上分配了n字节大小的八个对象，并将每个对象的指针存储在数组a的连续元素中。导致内存带宽的浪费。这种操作涉及到了CPU从数据总线中向内存中取值，通常速度远远慢于CPU本身的计算操作，也慢于CPU取出内部寄存器值的操作，很多时候，一个程序的计算瓶颈就在这些去内存的操作中，因此要尽量避免不必要的内存引用。例如4 个字节的变量，例如 float、int 类型的变量，放在 4 的整数倍地址上，8 个字节的变量，例如 long long、double 类型的变量，放在 8 的整数倍地址上。

2024-09-14 17:31:44 930

原创高性能计算应用优化之代码实现调优(一)

本章将介绍代码实现过程中使用到的调优方法。在软件开发早期，开发者更多关注代码功能的实现，对代码的性能关注较少，随着代码规模增加，不合理的代码实现方法所带来的性能包袱逐渐凸显。因此，需要对原有代码实现进行优化，如修改不合理的访存顺序，使代码更易于被编译器优化等。

2024-09-07 18:01:03 1147

原创高性能计算应用优化之IO调优

并行IO软件库ROMIO提出了集合I/O的方式，它增加了一步全局通信，比如在写出数据的时候，先将各进程不连续的数据按照文件中的位置排列成有序的，再分别写出，进一步地，ROMIO中提供了每个客户端节点中选择一个或几个进程负责I/O的局地聚合方式，将全局通信变成了局地通信，减少了通信的开销。ROMIO被集成在了基于POSIX I/O接口开发的并行IO库——MPI-IO上，使得MPI-IO做到平台独立和接口易用，用程序可以通过MPI-IO及基于MPI-IO的pHDF5、pNetCDF等库实现并行IO。

2024-09-02 18:11:10 1360

原创高性能计算应用优化之运行参数优化

程序运行时系统的各项配置一般是按照普适性原则，尽可能满足大多数场景下的需求，并未针对特定场景进行优化，这虽然能够提高环境的通用性，但限制了性能提高的空间。运行时参数可以根据用户的需求来调整程序的运行方式和资源分配，从而提高应用程序的性能。根据程序运行的过程，可以依次在进程布局，通信方法，内存分配多个方面进行优化。通过调整运行时参数，用户可以控制进程在NUMA上的排布，避免不合理的跨NUMA访问；可以用于控制程序运行前预加载的动态库，通过预加载动态库的方式改变所使用的内存分配库；

2024-08-23 17:53:24 2285

原创高性能计算应用优化之编译参数优化

编译参数优化（Compiler Parameter Optimization）是指在编译器将源代码转化为可执行代码的过程中，通过对程序的分析和优化，使得生成的目标代码在执行速度、占用内存等方面都能够达到更好的效果。以Intel编译器的编译流程为例，在完成前方词法分析、语法分析后，编译器将进行过程间分析优化（主要为对函数调用等过程进行优化）、循环优化（如预取、向量化、循环展开等）、全局标量优化（入冗余消除、死代码消除等）和代码生成（向量化、流水线、全局调度等）。

2024-08-16 16:40:31 1757

原创高性能计算应用优化之系统参数优化

大部分高性能计算领域的程序代码均由C/C++或Fortran编写而成，上述三种语言是更为靠近系统底层的语言，可以通过自底向上的调优更精准地控制程序的行为，获得更高的运行性能。

2024-08-09 18:10:59 1473

原创高性能计算应用优化之BIOS参数优化

VT-d是一个位于CPU、内存和I/O设备之间的硬件设备，通常位于PCI设备树的根部，或者类似的位于I/O子系统的根部，当VT-d重定向硬件设备启用的时候，它会拦截位于它下面的所有I/O设备产生的中断请求和通过DMA方式对虚拟机内存访问的请求，然后通过查找中断重定向表或者I/O页表的方式（类似分页机制）来重新定位中断转发的目标LAPIC或者是I/O设备访问的目标主机物理内存地址。因此为了提高系统性能，启用预取后，系统将从根本上利用更多的内存访问流量，如果内存控制器不是关键的性能瓶颈，可以提高内存性能表达。

2024-08-08 17:30:42 3047

原创工业软件“皇冠上的明珠”之Altair

Radioss 在研发中心以及汽车、航空航天、电子和国防领域的公司获得广泛认可，能够理解并高效、稳健地预测复杂环境中的组合多物理场行为，例如耐撞性、飞机水上迫降、终端弹道学或爆炸对车辆的影响。Op求解功能包括：静动力分析、线性非线性、模态分析、模态综合、屈曲分析、惯性释放、稳态和瞬态热应力分析等，多用于疲劳分析，复合材料分析，热传导分析等。除此之外，还有高度灵活、开放的二次开发平台，依托HyperMesh，HyperView的前后处理功能，去实现集成化与系统化、流程自动化、工具自动化，如下图所示。

2024-08-03 10:08:24 2931

原创工业软件“皇冠上的明珠”之Ansys

Ansys软件介绍

2024-07-27 18:05:24 4433

原创数值天气预报与AI气象大模型

随着模式复杂度和分辨率的提高，传统数值模式在气候变化研究和气候预测方面取得了迅速的进展，但也面临一些挑战，需要得到数据同化、集合耦合、高性能计算和不确定性分析等多方面的支持。气象大模型不断涌现，一些科技公司如华为、英伟达、DeepMind、谷歌、微软等，以及国内外高校如清华大学、复旦大学、密歇根大学、莱斯大学等发布了多个涵盖临近预报、短时预报、中期预报和延伸期预报等不同领域的气象大模型。然而，相对有限的计算资源，限制了模型分辨率的提高和更频繁的模型运行，从而影响了预报的详细程度和及时性。

2024-07-20 18:10:33 3942 1

原创软件部署-NEMO在LIinux系统上的安装教程

NEMO（Nucleus for European Modelling of the Ocean）海洋模式是一个原始方程海洋环境模式，采用正交曲线坐标，Arkawa-C网格，垂直坐标采用z坐标或S坐标。其物理参数化方案和数值算法使得NEMO具备了支持更高的分辨率、支持更高的并行度、并行IO技术和单双向多层嵌套等特点，成为国际上用于海洋学研究、海洋季节性预测和气候研究的最新模型框架。本文提供NEMO在Linux系统上的基础安装教程

2024-07-12 18:18:20 1406

原创人工智能增强型高性能计算(AHPC)与科技膨胀

人工智能增强型高性能计算（简称AHPC）已开始在科学宇宙中拓展新的空间，而这一空间过去是传统高性能计算数值方法无法进入的。

2024-07-03 16:13:50 1222

原创 WRF新手村

WRF新手村：从编译器、依赖库安装开始，完整的运行一次WRF算例

2024-06-28 16:34:32 1261

原创 HPC助力超导材料发现

从物理界顶流“超导”的科普到HPC如何助力超导材料发现

2024-06-25 14:55:25 885

原创 AMD ZEN5 如期而至

在CPU上进行AI推理是最近两年的一个不够火热的热点，从AMD这次重点增强AVX 512的吞吐能力来看，CPU芯片设计者们确实不想自己未来在各种PU的浪潮下，被抛下。CPU做推理还是又一定的先天优势的，不过相较用GPU推理，在性能上还是有明显的差距，这次我们先不讨论这些。不过128核心打64核心并行推理，多少有点不太讲究。更宽的指令并行能力相较zen 4 有两倍的指令带宽，L1于L2之间的数据带宽L1到FP单元的数据带宽都是zen4的两倍，全面支持avx512指令相较zen 4,运算能力增长仍是2倍。

2024-06-17 16:35:46 411

u013206206的博客