- 博客(15)
- 资源 (3)
- 收藏
- 关注
原创 书生实战营-L0关卡作业
书生大模型实战营L0入门岛第1关 Linux基础知识闯关任务:完成SSH连接与端口映射并运行hello_world.py
2024-08-18 21:20:14 139
原创 GPFS报错 “stale file handle”
Unfortunately, the GPFS service running at compute nodes “mmfsd” gets killed sometimes by the out of memory killer. This usually unmounts GPFS from the compute node and makes it unavailable in LSF. The mount point /gpfs3 shows “stale file handle”. This can
2022-09-01 11:51:35 1293
原创 如何应对困难对话
这篇虽然不是技术帖,但对于技术人员,也经常需要面对困难的对话,比如把坏消息告诉客户或者老板,而应对类似这样困难的对话,也是有一些技巧的。恰逢最近参加了这方面的培训,简要做个记录。
2021-10-07 11:13:10 397
原创 Linux “find“ 命令查找特定权限的文件(-perm参数)
最近遇到了有 "find . -perm"的需求,搜了一些文章发现讲的都不是很清晰,甚至有的还有错误。所以还是回到Linux官方手册(https://linux.die.net/man/1/find),把find命令的相关部分截取出来便于一次学对。Options-perm modeFile’s permission bits are exactly mode (octal or symbolic). Since an exact match is required, if you want to us
2021-05-21 15:43:59 5153 1
原创 GPFS各类排故日志收集汇总
There are many troubleshooting procedures for the GPFS available. (warning) The GPFS problem determination guide consists on several hundred pages. Some operations should only be performed together with the GPFS support.It’s always good to have a look at
2021-05-20 20:32:25 1284
原创 Ganglia监控工具简介及初始安装过程
Ganglia是经典的集群监控工具,常用于监控、记录高性能计算(HPC)集群的节点负载(CPU,内存,网络,IO等)。本文简要描述了Ganglia的基本信息,并根据个人实际部署笔记,记录了Ganglia初始安装过程。
2020-06-11 11:08:51 613
原创 IBM Spectrum LSF 9.1.3 基本概念简介
个人学习笔记,仅供参考,如若描述有误欢迎讨论指正!1. LSF HostsHosts in your cluster perform different functions.Master hostLSF server host that acts as the overall coordinator for the cluster, doing all job scheduling and dispatch.Server hostA host that submits and runs jobs
2020-06-09 13:39:04 1670
原创 CollectD + Kafka + InfluxDB + Grafana 数据监控部署笔记
Reference:https://jansipke.nl/monitoring-hosts-with-collectd-influxdb-and-grafana/CollectD + Kafka + InfluxDB + Grafana 版本信息CentOS Linux release 7.5.1804 (development toolkit installed)Linux master 3.10.0-862.el7.x86_64CollectD version 5.8.0Kafka vers
2020-06-03 11:10:49 428 1
原创 CentOS Linux 7 安装笔记
快速记录下自己在虚拟机安装CentOS Linux 7.6 的过程,仅供参考。1. 网络设置Network Management TUI: nmtui2. 禁用Firewallsystemctl stop firewalldsystemctl disable firewalld3. 配置本地Yummkdir /mnt/isomount -o loop /dev/cdrom /mnt/iso/ #write into /etc/rc.local#Then move all Repos
2020-06-03 10:26:47 242
原创 Redhat Linux 6 安装笔记
1. Storage Utility: 200M for "/boot", 2G for swap, rest for "/"2. Network Management TUI: nmtui3. SELinuxCheck SELinux status /usr/sbin/sestatus -v or getenforceDisable SELinux: Temporary: setenforce 0 Permanently: /etc/selinux/config SELINUX=disa
2020-06-02 14:47:43 466
原创 xCAT初始安装笔记
快速记录下自己在虚拟机安装xCAT的过程,仅供参考。1. 下载、安装xCAT安装包,包括 core & dephttp://xcat.org/download.html,当前最新版本2.13.8,core和dep版本一致。xcat-core-2.13.8-linux.tar.bz2xcat-dep-2.13.8-linux.tar.bz22. 创建安装路径并解压mkdir -p ~/xcatcd ~/xcat/mv ../xcat* ./tar jxvf xcat-core-2.1
2020-06-01 16:49:52 1010
原创 Mellanox Infiniband 架构设计快速实战指南 - B
书接上回:Mellanox Infiniband 架构设计快速实战指南 - A2. Infiniband协议类型在 Mellanox Infiniband Topology Generator 中,选定了网络拓扑后,接下来很重要的就是选定Infiniband的Data Rate,或者可以称为Infiniband协议类型。在Wikipedia中,Infiniband历史上全部的类型包括SDR: 2001/2003年DDR: 2005年QDR: 2007年FDR: 2011年EDR: 2014年
2020-05-21 16:36:28 4370 1
原创 Mellanox Infiniband 架构设计快速实战指南 - A
Nvidia GTC 2020正在进行中,Nvidia(英伟达)最终完成了对以色列高速计算网络厂商Mellanox的收购,再一次被黄老板高度评价。Mellanox Infiniband至今依然是高速计算互联网络的主流厂商和解决方案,在HPC领域应用广泛。本文基于Mellanox官方提供的材料,介绍如何快速上手Infiniband高速互联网络的设计规划。
2020-05-20 14:08:26 6403 4
GPFS Problem Determination Guide V4.2.pdf
2020-05-22
Intro_to_InfiniBand.pdf
2020-05-21
deploying-hpc-cluster-with-mellanox-infiniband-interconnect-solutions.pdf
2020-05-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人